一种基于生成式步骤级奖励模型的大语言模型推理方法

正文

推荐专利

申请号：CN202510288969

申请日期：2025-03-12

公开号：CN120218240A

公开日期：2025-06-27

类型：发明专利

摘要

本发明提出了一种基于生成式步骤级奖励模型的大语言模型推理方法，包括以下步骤：步骤1，收集数据，形成监督微调SFT数据集和直接偏好优化DPO数据集；步骤2，使用监督微调SFT数据集和直接偏好优化DPO数据集对小模型进行微调和优化，得到R‑PRM‑DPO模型；步骤3，使用大语言模型进行推理，使用R‑PRM‑DPO模型对推理过程进行评估，获得推理过程中每个步骤的奖励值；步骤4，使用奖励值对大语言模型推理过程进行优化，实现生成式步骤级奖励模型的大语言模型推理。

技术关键词

推理方法大语言模型数据模板标签语句策略标志指标

一种基于生成式步骤级奖励模型的大语言模型推理方法

站点导航

APP 下载