摘要
本申请公开了一种大模型的训练方法、任务处理方法、设备、介质及程序产品,其中训练方法包括:在任一训练轮次中,调用待训练模型基于多个训练文本输出多个输出文本,待训练模型包括大语言模型和至少一个扩展网络,任一扩展网络用于学习多个自然语言处理任务的相关知识,在任一训练轮次中大语言模型的第一参数处于锁定状态;根据目标数据确定目标损失,目标数据包括多个输出文本;根据目标损失更新至少一个扩展网络的第二参数,直至确定满足训练结束条件,得到多任务模型。本申请中,避免了知识遗忘问题,且提升了多任务模型的训练效率。
技术关键词
文本
自然语言
大语言模型
参数
字符
网络
训练集
解码
数据
处理器
计算机程序产品
标识
训练装置
模块
周期
可读存储介质
存储器
标签
电子设备
系统为您推荐了相关专利信息
知识库更新方法
编辑
计算机可读指令
节点
可读存储介质
模块
特征信息处理
图像
模型训练装置
模型训练方法
巡视方法
电网优化调度
优化决策理论
电网运行数据
量子态