A.决定了未来奖励的重要性B.决定了当前奖励的重要性C.控制探索与利用之间的平衡D.控制学习率
A.反馈立即生效B.反馈可能需要等到整个训练结束后才会得到C.反馈不重要D.反馈只在特定情况下生效
A.状态和反馈随时间变化B.时间不重要C.时间只影响智能体的动作D.时间只影响环境的变化