基于强化学习策略的大语言模型训练方法、装置和设备

AITNT
正文
推荐专利
基于强化学习策略的大语言模型训练方法、装置和设备
申请号:CN202511135156
申请日期:2025-08-13
公开号:CN121031780A
公开日期:2025-11-28
类型:发明专利
摘要
本公开提供了一种基于强化学习策略的大语言模型训练方法、装置和设备,涉及强化学习与自然语言处理技术领域。该方法包括:从回放缓冲区存储的历史查询语句中采样重放查询语句,并从训练数据集中采样新查询语句,得到当前批次样本;将当前批次样本中的任意一个当前查询语句输入大语言模型生成多个在线查询结果,并确定在线查询结果的奖励值;根据在线查询结果的奖励值,确定是否为当前查询语句引入标准查询结果;若引入标准查询结果,则基于大语言模型,根据标准查询结果、在线查询结果的奖励值、标准查询结果的奖励值、在线查询结果的当前批次概率以及上一批次概率,确定策略梯度损失,并采用策略梯度损失对大语言模型的策略参数进行更新。
技术关键词
语句 大语言模型 在线 语言模型训练方法 错误率 强化学习策略 样本 模型训练装置 批量 计算机程序产品 数据 序列 处理器通信 参数 自然语言 指令 离线
系统为您推荐了相关专利信息
1
烧结混合机智能加水控制系统及控制方法
在线检测单元 智能加水 远程通讯单元 控制系统 工业计算机
2
大语言模型更新方法、装置以及电子设备
大语言模型 超参数 文本 深度神经网络 更新方法
3
一种辅助数字教师教学的学科知识库构建方法
学科知识库构建 文本段落 大语言模型 教师 语义向量
4
转速-温度-磨损的盾构刀具智能感知方法
智能感知方法 盾构刀具 在线增量 神经网络模型 耦合特征提取
5
一种基于大数据分析的社交安全防诈骗预警方法
预警方法 关键词 语句 社交 词语
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号