摘要
本公开提供了一种大语言模型的强化学习训练方法、装置、设备及存储介质,属于计算机技术领域。该方法包括:获取第一样本数据,第一样本数据包括第一问题文本和大语言模型针对第一问题文本输出的第一答复文本;通过生成式模型,基于第一样本数据,生成第一答复文本的监督信息,监督信息包括对第一答复文本进行修正得到的第一修正文本和第一答复文本中各个词元的复现概率,复现概率用于表示对应的词元在第一修正文本中出现的概率,第一修正文本的准确率高于第一答复文本;基于第一答复文本和第一答复文本的监督信息,对大语言模型进行强化学习训练。上述技术方案能够通过对大语言模型进行强化学习训练,来提高大语言模型执行语言生成任务的准确性。
技术关键词
学习训练方法
文本
大语言模型
样本
数据
学习训练装置
编辑
电子设备
可执行程序代码
强化学习算法
处理器
可读存储介质
计算机程序产品
教师
参数
存储器
指令