问答题

对于深度强化学习中的连续动作空间,以下哪种策略网络输出的是动作的概率分布?

答案: A.确定性策略网络
B.随机性策略网络
C.价值网络
D.以上都不是
正确答案:B
答案解析:随机性策略网络输出动作的概率分布。
题目列表

你可能感兴趣的试题