问答题

在强化学习中，以下哪种算法结合了策略梯度和价值函数的优势？

答案： A.A3C
B.DQN
C.TD3
D.Sarsa
正确答案：C
答案解析：TD3结合了策略梯度和价值函数的优势。

你可能感兴趣的试题

问答题
对于深度神经网络的可解释性，以下哪种方法通过分析神经元的激活情况来理解模型决策？
答案： A.特征可视化
B.敏感性分析
C.梯度计算
D.以上都是
正确答案：A
答案解析：特征可视化通过分析神经元激活情况来理解模型决策。
问答题
以下哪种方法可以用于评估自然语言处理模型的泛化能力？
答案： A.交叉验证
B.留出法
C.A/B测试
D.以上都是
正确答案：D
答案解析：交叉验证、留出法和A/B测试都可用于评估模型泛化能力。
问答题
在迁移学习中，以下哪种情况会导致负迁移？
答案： A.源域和目标域相似性过高
B.源域和目标域相似性过低
C.模型过于复杂
D.数据量过大
正确答案：B
答案解析：源域和目标域相似性过低可能导致负迁移。
问答题
以下哪种模型在处理图像生成任务时，可以通过逐步细化生成高分辨率的图像？
答案： A.自回归模型
B.变分自编码器
C.生成对抗网络
D.级联生成网络
正确答案：D
答案解析：级联生成网络可以逐步细化生成高分辨率图像。
问答题
对于深度强化学习中的连续动作空间，以下哪种策略网络输出的是动作的概率分布？
答案： A.确定性策略网络
B.随机性策略网络
C.价值网络
D.以上都不是
正确答案：B
答案解析：随机性策略网络输出动作的概率分布。