问答题

以下哪种方法常用于解决深度强化学习中的探索与利用权衡问题?

答案: A.汤普森采样
B.上置信界算法
C.ε-贪婪策略
D.以上都是
正确答案:D
答案解析:汤普森采样、上置信界算法和ε-贪婪策略都常用于解决探索与利用权衡问题。
题目列表

你可能感兴趣的试题