问答题

在强化学习中,Q-learning算法通过估计什么来选择动作?

答案: A.状态价值函数
B.动作价值函数
C.策略函数
D.奖励函数
正确答案:B
答案解析:Q-learning算法通过估计动作价值函数来选择动作。
题目列表

你可能感兴趣的试题