基于强化学习的行业大语言模型训练方法及装置

正文

推荐专利

申请号：CN202510351772

申请日期：2025-03-24

公开号：CN120278270A

公开日期：2025-07-08

类型：发明专利

摘要

本申请提供一种基于强化学习的行业大语言模型训练方法及装置，涉及大语言模型训练技术领域，该方法包括：利用目标行业的行业非结构化文本数据通过增量预训练的方式对基座大语言模型进行训练，得到第一模型；利用目标行业的高质量推理数据通过指令精调的方式对第一模型进行一次训练，再使用强化学习方法进行二次训练，得到第二模型，并使用拒绝采样的方法，利用第二模型生成第一数据集；使用第一数据集通过指令精调的方式对第二模型进行训练一次训练，再使用强化学习方法进行二次训练，得到第三模型，并基于任务向量运算利用第一数据集和高质量推理数据将基座大语言模型和第三模型进行融合，得到目标行业的推理型行业大语言模型。

技术关键词

大语言模型行业知识图谱强化学习方法模型训练模块非结构化文本答案数据获取模块基座指令自然语言参数处理器训练装置可读存储介质存储器电子设备计算机样本

系统为您推荐了相关专利信息

基于音频分类模型的语音提取方法、装置及电子设备

语音提取方法声纹模型音频组活性检测聚类

一种高效抗菌肽批量设计与评估方法及系统

抗菌肽序列模拟模型模型训练模块批量

一种自动化数据异常检测与处理方法、装置、设备及介质

异常数据处理脚本识别异常数据随机梯度下降模型训练模块

基于联邦学习的供应链需求预测系统

节点参数供应链需求预测分布式计算框架数据处理模块

一种气盾坝流量系数计算系统

气盾坝结构训练特征节点特征随机森林数值

基于强化学习的行业大语言模型训练方法及装置

站点导航

APP 下载