问答题

对于强化学习中的策略更新,以下哪种方法通过直接优化策略的参数?

答案: A.策略梯度法
B.价值迭代法
C.策略迭代法
D.Q-learning法
正确答案:A
答案解析:策略梯度法直接优化策略的参数。
题目列表

你可能感兴趣的试题