单项选择题

在强化学习值函数近似中,时间差分方法对梯度计算是()
A、
B、
C、
D、

微信扫码免费搜题