摘要
本发明提供一种大语言模型合并方法、装置、电子设备及存储介质,包括:基于合并模型在下游任务的任务目标,确定模型合并所使用的密度超参数和模型合并系数超参数;基于密度超参数生成掩码矩阵,基于掩码矩阵、两个待合并模型各自的模型参数以及基础模型的模型参数,分别确定两个待合并模型的任务向量;基于两个待合并模型之间对应神经元的参数向量角、两个待合并模型的任务向量以及模型合并系数超参数,确定合并模型的任务向量;基于合并模型的任务向量和基础模型的模型参数,得到合并模型。采用上述技术方案,解决了现有的模型合并方法得到的合并模型的性能不佳的问题。
技术关键词
模型合并方法
超参数
掩码矩阵
大语言模型
元素
非暂态计算机可读存储介质
基础
电子设备
密度
处理器
计算机程序产品
模块
存储器
因子
系统为您推荐了相关专利信息
机器学习回归算法
排序方法
晶圆
数据
计算机程序指令
页面结构
图像分类模型
元素
UI自动化测试
标签