一种过程奖励模型训练方法及系统

AITNT
正文
推荐专利
一种过程奖励模型训练方法及系统
申请号:CN202510935492
申请日期:2025-07-08
公开号:CN120430424B
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及人工智能技术领域,尤其涉及一种过程奖励模型训练方法及系统。本发明计算每个样本中问题文本的置信度分数;基于标注样本中问题文本的各个推理步骤的正确性分数、置信度分数、容忍距离超参数,获取标注样本中问题文本的各个推理步骤的目标正确性分数;基于标注样本中问题文本的各个推理步骤的正确性预测分数与目标正确性分数之间的二元交叉熵损失,对过程奖励模型进行训练,将训练好的过程奖励模型作为目标过程奖励模型。本发明提高了过程奖励模型训练的准确性和可靠性,增强了大型语言模型生成文本精度。
技术关键词
文本 样本 模型训练方法 答案 超参数 模型训练系统 索引 人工智能技术 数据获取模块 校正模块 标签 模板 序列 数学 精度
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号