摘要
本发明涉及大语言模型融合技术领域,公开了一种大语言模型自适应融合方法、装置及设备。所述方法包括:基于多个垂域数据集对基座模型进行微调,得到多个垂域模型;计算每个垂域模型的模型参数相对于基座模型参数的增量向量,记为任务向量;自所述多个垂域数据集的并集中采样得到多个批次训练集;固定所述基座模型,对门控参数进行批次训练;训练过程中,针对每个训练样本,分别提取输入文本的语义特征向量,计算门控概率矩阵;计算每个任务向量的融合权重;基于基座模型参数、任务向量及对应融合权重,更新融合模型;最后通过模型前馈和反向传播,更新门控参数,重复训练。本发明能够得到适用于多个垂域的融合模型。
技术关键词
融合方法
大语言模型
基座
矩阵
训练集
文本
语义
参数更新模块
因子
模型训练模块
融合装置
数据获取模块
电子设备
样本
存储器
计算机
处理器
分词