A.模型结构不同B.训练数据不同C.attention mask不同D.生成策略不同
A.使用函数/模型/人类反馈评估问题和答案B.语言模型根据问题生成答案或续写C.在PPO优化步骤中计算序列中标记的对数概率D.使用PPO算法训练语言模型
A.激发语言模型的补全能力B.激发语言模型的理解能力C.使用不同的训练数据D.使用不同的模型架构