基于强化学习的行业大语言模型训练方法及装置

AITNT
正文
推荐专利
基于强化学习的行业大语言模型训练方法及装置
申请号:CN202510351772
申请日期:2025-03-24
公开号:CN120278270A
公开日期:2025-07-08
类型:发明专利
摘要
本申请提供一种基于强化学习的行业大语言模型训练方法及装置,涉及大语言模型训练技术领域,该方法包括:利用目标行业的行业非结构化文本数据通过增量预训练的方式对基座大语言模型进行训练,得到第一模型;利用目标行业的高质量推理数据通过指令精调的方式对第一模型进行一次训练,再使用强化学习方法进行二次训练,得到第二模型,并使用拒绝采样的方法,利用第二模型生成第一数据集;使用第一数据集通过指令精调的方式对第二模型进行训练一次训练,再使用强化学习方法进行二次训练,得到第三模型,并基于任务向量运算利用第一数据集和高质量推理数据将基座大语言模型和第三模型进行融合,得到目标行业的推理型行业大语言模型。
技术关键词
大语言模型 行业知识图谱 强化学习方法 模型训练模块 非结构化文本 答案 数据获取模块 基座 指令 自然语言 参数 处理器 训练装置 可读存储介质 存储器 电子设备 计算机 样本
系统为您推荐了相关专利信息
1
基于音频分类模型的语音提取方法、装置及电子设备
语音提取方法 声纹模型 音频组 活性检测 聚类
2
一种高效抗菌肽批量设计与评估方法及系统
抗菌肽 序列 模拟模型 模型训练模块 批量
3
一种自动化数据异常检测与处理方法、装置、设备及介质
异常数据处理 脚本 识别异常数据 随机梯度下降 模型训练模块
4
基于联邦学习的供应链需求预测系统
节点 参数 供应链需求预测 分布式计算框架 数据处理模块
5
一种气盾坝流量系数计算系统
气盾坝结构 训练特征 节点特征 随机森林 数值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号