问答题

以下哪种技术在强化学习中常用于解决探索与利用的平衡问题?

答案: A.蒙特卡罗方法
B.策略梯度算法
C.ε-贪心策略
D.以上都不是
正确答案:C
答案解析:ε-贪心策略可以在一定程度上平衡强化学习中的探索与利用。
题目列表

你可能感兴趣的试题