问答题

在强化学习中，Q-learning算法通过估计什么来选择动作？

答案： A.状态价值函数
B.动作价值函数
C.策略函数
D.奖励函数
正确答案：B
答案解析：Q-learning算法通过估计动作价值函数来选择动作。

你可能感兴趣的试题

问答题
以下哪个不是AI中自动特征工程的常用方法？
答案： A.主成分分析（PCA）
B.线性判别分析（LDA）
C.独立成分分析（ICA）
D.随机森林特征重要性
正确答案：D
答案解析：随机森林特征重要性主要用于评估特征的重要性，而非自动特征工程。
问答题
对于一个时间序列预测问题，以下哪种模型较为适用？
答案： A.RNN
B.CNN
C.GAN
D.DBN
正确答案：A
答案解析：RNN及其变体在处理时间序列数据的预测问题上有优势。
问答题
以下哪种方法可以用于评估AI模型的泛化能力？
答案： A.交叉验证
B.留出法
C.A/B测试
D.以上都是
正确答案：D
答案解析：交叉验证、留出法和A/B测试都可用于评估模型的泛化能力。
问答题
在自然语言处理中，以下哪种模型能够捕捉文本的双向语义信息？
答案： A.BiLSTM
B.Transformer
C.GPT
D.ELMO
正确答案：B
答案解析：Transformer能够同时处理文本的前向和后向信息，捕捉双向语义。
问答题
以下哪个是深度学习中用于防止梯度消失或爆炸的机制？
答案： A.正则化
B.批归一化（BatchNormalization）
C.Dropout
D.动量（Momentum）
正确答案：B
答案解析：批归一化有助于解决梯度消失或爆炸问题。