一种基于生成式步骤级奖励模型的大语言模型推理方法

AITNT
正文
推荐专利
一种基于生成式步骤级奖励模型的大语言模型推理方法
申请号:CN202510288969
申请日期:2025-03-12
公开号:CN120218240A
公开日期:2025-06-27
类型:发明专利
摘要
本发明提出了一种基于生成式步骤级奖励模型的大语言模型推理方法,包括以下步骤:步骤1,收集数据,形成监督微调SFT数据集和直接偏好优化DPO数据集;步骤2,使用监督微调SFT数据集和直接偏好优化DPO数据集对小模型进行微调和优化,得到R‑PRM‑DPO模型;步骤3,使用大语言模型进行推理,使用R‑PRM‑DPO模型对推理过程进行评估,获得推理过程中每个步骤的奖励值;步骤4,使用奖励值对大语言模型推理过程进行优化,实现生成式步骤级奖励模型的大语言模型推理。
技术关键词
推理方法 大语言模型 数据 模板 标签 语句 策略 标志 指标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号