摘要
本说明书实施例披露一种大语言模型的训练方法及装置。该训练方法包括:首先,在大语言模型的目标注意力头中,分别利用查询变换矩阵、键变换矩阵和值变换矩阵处理上一层针对输入文本的输出,得到查询矩阵、键矩阵和值矩阵;然后,将所述查询矩阵压缩为全局查询向量,并对所述全局查询向量与所述键矩阵中的多个键向量分别进行融合处理,得到注意力矩阵;接着,将所述注意力矩阵压缩为全局注意力向量,并通过对所述全局注意力向量与所述值矩阵中的多个值向量分别进行融合处理,得到所述目标注意力头的输出,以确定所述大语言模型的目标输出;之后,基于所述目标输出,训练所述大语言模型。
技术关键词
注意力
大语言模型
线性变换矩阵
掩码矩阵
元素
文本
sigmoid函数
参数
ReLU函数
剪枝模型
非线性
模型剪枝
编码向量
训练装置
计算机
蒸馏
可读存储介质
系统为您推荐了相关专利信息
面向多场景
涉税数据
特征向量空间
动态权重分配
权重分配策略
计量仪表
协议解析方法
编码规则
协议解析系统
参数
有害重金属离子
重金属监测
光纤光谱仪
吸附材料
比色皿支架
语义分割方法
深层特征提取
浅层特征提取
高分辨率遥感图像
解码器
配电网施工
智能结算方法
工程量清单
新项目
SQLServer数据库