摘要
本申请提供一种基于强化学习的行业大语言模型训练方法及装置,涉及大语言模型训练技术领域,该方法包括:利用目标行业的行业非结构化文本数据通过增量预训练的方式对基座大语言模型进行训练,得到第一模型;利用目标行业的高质量推理数据通过指令精调的方式对第一模型进行一次训练,再使用强化学习方法进行二次训练,得到第二模型,并使用拒绝采样的方法,利用第二模型生成第一数据集;使用第一数据集通过指令精调的方式对第二模型进行训练一次训练,再使用强化学习方法进行二次训练,得到第三模型,并基于任务向量运算利用第一数据集和高质量推理数据将基座大语言模型和第三模型进行融合,得到目标行业的推理型行业大语言模型。
技术关键词
大语言模型
行业知识图谱
强化学习方法
模型训练模块
非结构化文本
答案
数据获取模块
基座
指令
自然语言
参数
处理器
训练装置
可读存储介质
存储器
电子设备
计算机
样本
系统为您推荐了相关专利信息
异常数据处理
脚本
识别异常数据
随机梯度下降
模型训练模块
节点
参数
供应链需求预测
分布式计算框架
数据处理模块