判断题

强化学习中,机器的每一步行动都会获得相应的奖励或惩罚。

答案: 错误
微信扫码免费搜题