一种过程奖励模型训练方法及系统

正文

推荐专利

一种过程奖励模型训练方法及系统

申请号：CN202510935492

申请日期：2025-07-08

公开号：CN120430424B

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及人工智能技术领域，尤其涉及一种过程奖励模型训练方法及系统。本发明计算每个样本中问题文本的置信度分数；基于标注样本中问题文本的各个推理步骤的正确性分数、置信度分数、容忍距离超参数，获取标注样本中问题文本的各个推理步骤的目标正确性分数；基于标注样本中问题文本的各个推理步骤的正确性预测分数与目标正确性分数之间的二元交叉熵损失，对过程奖励模型进行训练，将训练好的过程奖励模型作为目标过程奖励模型。本发明提高了过程奖励模型训练的准确性和可靠性，增强了大型语言模型生成文本精度。

技术关键词

文本样本模型训练方法答案超参数模型训练系统索引人工智能技术数据获取模块校正模块标签模板序列数学精度

一种过程奖励模型训练方法及系统

站点导航

APP 下载