基于强化学习策略的大语言模型训练方法、装置和设备

正文

推荐专利

申请号：CN202511135156

申请日期：2025-08-13

公开号：CN121031780A

公开日期：2025-11-28

类型：发明专利

摘要

本公开提供了一种基于强化学习策略的大语言模型训练方法、装置和设备，涉及强化学习与自然语言处理技术领域。该方法包括：从回放缓冲区存储的历史查询语句中采样重放查询语句，并从训练数据集中采样新查询语句，得到当前批次样本；将当前批次样本中的任意一个当前查询语句输入大语言模型生成多个在线查询结果，并确定在线查询结果的奖励值；根据在线查询结果的奖励值，确定是否为当前查询语句引入标准查询结果；若引入标准查询结果，则基于大语言模型，根据标准查询结果、在线查询结果的奖励值、标准查询结果的奖励值、在线查询结果的当前批次概率以及上一批次概率，确定策略梯度损失，并采用策略梯度损失对大语言模型的策略参数进行更新。

技术关键词

语句大语言模型在线语言模型训练方法错误率强化学习策略样本模型训练装置批量计算机程序产品数据序列处理器通信参数自然语言指令离线

系统为您推荐了相关专利信息

烧结混合机智能加水控制系统及控制方法

在线检测单元智能加水远程通讯单元控制系统工业计算机

大语言模型更新方法、装置以及电子设备

大语言模型超参数文本深度神经网络更新方法

一种辅助数字教师教学的学科知识库构建方法

学科知识库构建文本段落大语言模型教师语义向量

转速-温度-磨损的盾构刀具智能感知方法

智能感知方法盾构刀具在线增量神经网络模型耦合特征提取

一种基于大数据分析的社交安全防诈骗预警方法

预警方法关键词语句社交词语

基于强化学习策略的大语言模型训练方法、装置和设备

站点导航

APP 下载