问答题

对于深度强化学习中的连续动作空间，以下哪种策略网络输出的是动作的概率分布？

答案： A.确定性策略网络
B.随机性策略网络
C.价值网络
D.以上都不是
正确答案：B
答案解析：随机性策略网络输出动作的概率分布。

你可能感兴趣的试题

问答题
在自然语言处理中，以下哪种方法可以用于解决一词多义的问题？
答案： A.词向量平均
B.上下文词向量
C.词性标注
D.命名实体识别
正确答案：B
答案解析：上下文词向量可以用于解决一词多义问题。
问答题
以下哪种技术可以用于提高深度生成模型的生成多样性？
答案： A.引入噪声
B.增加模型复杂度
C.调整训练数据分布
D.以上都是
正确答案：D
答案解析：引入噪声、增加模型复杂度和调整训练数据分布都可提高生成多样性。
问答题
在多模态融合中，以下哪种方法可以处理不同模态数据的异步性？
答案： A.基于注意力的融合
B.基于特征拼接的融合
C.基于加权求和的融合
D.基于核函数的融合
正确答案：A
答案解析：基于注意力的融合可以处理多模态数据的异步性。
问答题
以下哪种模型在处理图像分类任务时，对图像的平移、旋转和缩放具有不变性？
答案： A.卷积神经网络
B.循环神经网络
C.多层感知机
D.生成对抗网络
正确答案：A
答案解析：卷积神经网络对图像的平移、旋转和缩放具有不变性。
问答题
对于强化学习中的策略优化，以下哪种方法可以降低方差？
答案： A.优势函数估计
B.策略梯度估计
C.价值函数估计
D.动作值函数估计
正确答案：A
答案解析：优势函数估计可以降低策略优化中的方差。