摘要
本公开提出了一种大模型的优化方法、装置和电子设备,涉及人工智能技术领域,具体为大模型和深度学习等技术领域,包括:从多头自注意力MHA结构的第一大模型中抽取模型参数,得到模型参数集合,对第一类模型参数进行奇异值分解SVD,得到第一类模型参数的近似矩阵对;基于第一类模型参数的近似矩阵对和第二类模型参数,生成多头隐式自注意力MLA结构的第二大模型,本公开通过对第一类模型参数进行奇异值分解,得到第一类模型参数的近似矩阵对,并基于第一类模型参数的近似矩阵对和第二类模型参数,生成MLA结构的第二大模型,提高了生成大模型的效率以及大模型的性能,降低了生成大模型的成本。
技术关键词
矩阵
参数
注意力
可执行程序代码
平方根
模块
电子设备
人工智能技术
计算机程序产品
处理器
优化装置
元素
可读存储介质
存储器
网络
系统为您推荐了相关专利信息
可靠性分析方法
概率密度函数
不确定性参数
飞行器复合材料
不确定性传播分析
线性规划模型
在线评估方法
分布式光伏
光伏消纳能力
智能电表采集
可靠性分析方法
人因可靠性分析
可靠性分析模型
累积分布函数
操作规程