摘要
本发明涉及人工智能技术领域,尤其涉及一种过程奖励模型训练方法及系统。本发明计算每个样本中问题文本的置信度分数;基于标注样本中问题文本的各个推理步骤的正确性分数、置信度分数、容忍距离超参数,获取标注样本中问题文本的各个推理步骤的目标正确性分数;基于标注样本中问题文本的各个推理步骤的正确性预测分数与目标正确性分数之间的二元交叉熵损失,对过程奖励模型进行训练,将训练好的过程奖励模型作为目标过程奖励模型。本发明提高了过程奖励模型训练的准确性和可靠性,增强了大型语言模型生成文本精度。
技术关键词
文本
样本
模型训练方法
答案
超参数
模型训练系统
索引
人工智能技术
数据获取模块
校正模块
标签
模板
序列
数学
精度