摘要
本公开提供了一种大语言模型的持续学习方法、推理方法、系统、电子设备、存储介质及程序产品。大语言模型中每个需微调的原始部分被引入了一组任务适配器后形成微调部分,每组任务适配器包括用于学习任务特定知识的高秩任务适配器和用于学习任务共享知识的低秩任务适配器;每个微调部分针对其输入矩阵x输出fx=fo+λh×fh+λl×fl,fo表示该微调部分中的原始部分对x进行处理后得到的矩阵,fh表示该微调部分中的高秩任务适配器对x进行处理后得到的矩阵,λh表示该高秩任务适配器对应的任务知识尺度权重,fl表示该微调部分中的低秩任务适配器对x进行处理后得到的矩阵,λl表示该低秩任务适配器对应的任务知识尺度权重,λh和λl基于新任务与先前任务间的相关性而确定。
技术关键词
适配器
大语言模型
持续学习方法
推理方法
矩阵
计算机可执行指令
电子设备
注意力
数据获取单元
处理器
推理系统
参数
学习系统
计算机程序产品
可读存储介质
存储器