摘要
本发明提出了一种基于生成式步骤级奖励模型的大语言模型推理方法,包括以下步骤:步骤1,收集数据,形成监督微调SFT数据集和直接偏好优化DPO数据集;步骤2,使用监督微调SFT数据集和直接偏好优化DPO数据集对小模型进行微调和优化,得到R‑PRM‑DPO模型;步骤3,使用大语言模型进行推理,使用R‑PRM‑DPO模型对推理过程进行评估,获得推理过程中每个步骤的奖励值;步骤4,使用奖励值对大语言模型推理过程进行优化,实现生成式步骤级奖励模型的大语言模型推理。
技术关键词
推理方法
大语言模型
数据
模板
标签
语句
策略
标志
指标