问答题

对于强化学习中的策略评估,以下哪种方法通过估计状态值函数来评估策略?

答案: A.蒙特卡罗方法
B.时序差分方法
C.策略梯度方法
D.以上都是
正确答案:B
答案解析:时序差分方法通过估计状态值函数评估策略。
题目列表

你可能感兴趣的试题