摘要
本公开提供了一种基于强化学习策略的大语言模型训练方法、装置和设备,涉及强化学习与自然语言处理技术领域。该方法包括:从回放缓冲区存储的历史查询语句中采样重放查询语句,并从训练数据集中采样新查询语句,得到当前批次样本;将当前批次样本中的任意一个当前查询语句输入大语言模型生成多个在线查询结果,并确定在线查询结果的奖励值;根据在线查询结果的奖励值,确定是否为当前查询语句引入标准查询结果;若引入标准查询结果,则基于大语言模型,根据标准查询结果、在线查询结果的奖励值、标准查询结果的奖励值、在线查询结果的当前批次概率以及上一批次概率,确定策略梯度损失,并采用策略梯度损失对大语言模型的策略参数进行更新。
技术关键词
语句
大语言模型
在线
语言模型训练方法
错误率
强化学习策略
样本
模型训练装置
批量
计算机程序产品
数据
序列
处理器通信
参数
自然语言
指令
离线
系统为您推荐了相关专利信息
在线检测单元
智能加水
远程通讯单元
控制系统
工业计算机
学科知识库构建
文本段落
大语言模型
教师
语义向量
智能感知方法
盾构刀具
在线增量
神经网络模型
耦合特征提取