大语言模型的强化学习训练方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510452120

申请日期：2025-04-10

公开号：CN120387495A

公开日期：2025-07-29

类型：发明专利

摘要

本公开提供了一种大语言模型的强化学习训练方法、装置、设备及存储介质，属于计算机技术领域。该方法包括：获取第一样本数据，第一样本数据包括第一问题文本和大语言模型针对第一问题文本输出的第一答复文本；通过生成式模型，基于第一样本数据，生成第一答复文本的监督信息，监督信息包括对第一答复文本进行修正得到的第一修正文本和第一答复文本中各个词元的复现概率，复现概率用于表示对应的词元在第一修正文本中出现的概率，第一修正文本的准确率高于第一答复文本；基于第一答复文本和第一答复文本的监督信息，对大语言模型进行强化学习训练。上述技术方案能够通过对大语言模型进行强化学习训练，来提高大语言模型执行语言生成任务的准确性。

技术关键词

学习训练方法文本大语言模型样本数据学习训练装置编辑电子设备可执行程序代码强化学习算法处理器可读存储介质计算机程序产品教师参数存储器指令

大语言模型的强化学习训练方法、装置、设备及存储介质

站点导航

APP 下载