一种面向大语言模型的增量模型合并方法和系统

正文

推荐专利

申请号：CN202411803376

申请日期：2024-12-10

公开号：CN119294465B

公开日期：2025-05-16

类型：发明专利

摘要

本发明公开了一种面向大语言模型的增量模型合并方法和系统，属于机器学习技术领域，方法包括：首次增量模型合并时通过专家模型更新的任务向量以及预训练模型在校准数据集上的梯度计算专家模型的困惑参数并转化为参数掩码矩阵；根据任务向量、梯度和参数掩码矩阵计算专家模型的参数重要性并采样生成采样掩码矩阵，利用采样掩码矩阵对任务向量进行放缩生成增量任务向量；将增量任务向量添加到预训练模型的参数中生成合并模型的参数；后续增量模型合并时采用与首次同样的方法将不同的新的专家模型依次合并到前次合并得到的合并模型上。本发明能依次增量叠加地合并不同特定任务的专家模型，避免了参数冲突和任务冲突，提高了模型合并性能。

技术关键词

模型合并方法掩码矩阵大语言模型预训练模型参数模型合并系统校准机器学习技术定位模块存储计算机程序模型更新数据处理器文本分层存储器电子设备元素

一种面向大语言模型的增量模型合并方法和系统

站点导航

APP 下载