摘要
本发明公开了一种面向大语言模型的增量模型合并方法和系统,属于机器学习技术领域,方法包括:首次增量模型合并时通过专家模型更新的任务向量以及预训练模型在校准数据集上的梯度计算专家模型的困惑参数并转化为参数掩码矩阵;根据任务向量、梯度和参数掩码矩阵计算专家模型的参数重要性并采样生成采样掩码矩阵,利用采样掩码矩阵对任务向量进行放缩生成增量任务向量;将增量任务向量添加到预训练模型的参数中生成合并模型的参数;后续增量模型合并时采用与首次同样的方法将不同的新的专家模型依次合并到前次合并得到的合并模型上。本发明能依次增量叠加地合并不同特定任务的专家模型,避免了参数冲突和任务冲突,提高了模型合并性能。
技术关键词
模型合并方法
掩码矩阵
大语言模型
预训练模型
参数
模型合并系统
校准
机器学习技术
定位模块
存储计算机程序
模型更新
数据
处理器
文本
分层
存储器
电子设备
元素