大模型的训练方法、任务处理方法、设备、介质及程序产品

正文

推荐专利

申请号：CN202411942412

申请日期：2024-12-27

公开号：CN119358709B

公开日期：2025-04-08

类型：发明专利

摘要

本申请公开了一种大模型的训练方法、任务处理方法、设备、介质及程序产品，其中训练方法包括：在任一训练轮次中，调用待训练模型基于多个训练文本输出多个输出文本，待训练模型包括大语言模型和至少一个扩展网络，任一扩展网络用于学习多个自然语言处理任务的相关知识，在任一训练轮次中大语言模型的第一参数处于锁定状态；根据目标数据确定目标损失，目标数据包括多个输出文本；根据目标损失更新至少一个扩展网络的第二参数，直至确定满足训练结束条件，得到多任务模型。本申请中，避免了知识遗忘问题，且提升了多任务模型的训练效率。

技术关键词

文本自然语言大语言模型参数字符网络训练集解码数据处理器计算机程序产品标识训练装置模块周期可读存储介质存储器标签电子设备

系统为您推荐了相关专利信息

一种基于多目标优化的石材缺陷区域排版方法及系统

连续切割工艺工件排版方法长宽比追踪方法

一种AI agent的RPA知识库更新方法

知识库更新方法编辑计算机可读指令节点可读存储介质

模型训练方法及装置

模块特征信息处理图像模型训练装置模型训练方法

一种座舱调节方法、系统、车辆及存储介质

座舱调节方法座舱调节系统数据决策场景

一种基于元宇宙的电网全息仿真巡视方法、系统、设备及存储介质

巡视方法电网优化调度优化决策理论电网运行数据量子态

大模型的训练方法、任务处理方法、设备、介质及程序产品

站点导航

APP 下载