摘要
本申请涉及一种Transformer大语言模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。包括:根据特征处理网络的输入特征矩阵和特征处理网络的输出特征矩阵,计算压缩系数;根据压缩系数对输入特征矩阵进行压缩;将压缩后的输入特征矩阵和输出特征矩阵相加,得到输出矩阵;将输出矩阵提供给下一网络层;根据Transformer大语言模型的输出结果和训练样本数据对应的标签进行模型训练。本方法动态且自适应地计算压缩系数,基于该压缩系数压缩冗余信息,能够解决大语言模型的训练过程中,残差连接引入的冗余信息的问题,减少训练过程中的冗余信息,从而提升大语言模型的训练效率,降低训练成本。
技术关键词
矩阵
输出特征
训练样本数据
网络
大语言模型
计算机程序产品
计算机设备
标签
可读存储介质
处理器
冗余
训练装置
存储器
模块
动态
参数
系统为您推荐了相关专利信息
拉格朗日模型
机械臂末端执行器
阻抗控制方法
雅克比矩阵
关节力矩
动态监测方法
骨架姿态
高维特征向量
监控平台
深度图
轻量化神经网络
生命体征数据
超声影像数据
智能联动方法
灰度统计特征