Transformer大语言模型的训练方法、装置、设备、存储介质和程序产品

正文

推荐专利

申请号：CN202510887923

申请日期：2025-06-30

公开号：CN120911515A

公开日期：2025-11-07

类型：发明专利

摘要

本申请涉及一种Transformer大语言模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。包括：根据特征处理网络的输入特征矩阵和特征处理网络的输出特征矩阵，计算压缩系数；根据压缩系数对输入特征矩阵进行压缩；将压缩后的输入特征矩阵和输出特征矩阵相加，得到输出矩阵；将输出矩阵提供给下一网络层；根据Transformer大语言模型的输出结果和训练样本数据对应的标签进行模型训练。本方法动态且自适应地计算压缩系数，基于该压缩系数压缩冗余信息，能够解决大语言模型的训练过程中，残差连接引入的冗余信息的问题，减少训练过程中的冗余信息，从而提升大语言模型的训练效率，降低训练成本。

技术关键词

矩阵输出特征训练样本数据网络大语言模型计算机程序产品计算机设备标签可读存储介质处理器冗余训练装置存储器模块动态参数

系统为您推荐了相关专利信息

一种基于包含障碍函数的能量罐的机械臂变阻抗控制方法

拉格朗日模型机械臂末端执行器阻抗控制方法雅克比矩阵关节力矩

文本生成的方法、装置、电子设备及可读存储介质

文本生成提示词大语言模型意图识别模型语义

一种基于图像识别的电厂工作人员动态监测方法

动态监测方法骨架姿态高维特征向量监控平台深度图

一种小语种威胁情报线索拓展方法、系统、设备及介质

威胁情报库线索大语言模型文本摘要

基于5G和边缘计算的急救资源智能联动方法及系统

轻量化神经网络生命体征数据超声影像数据智能联动方法灰度统计特征

Transformer大语言模型的训练方法、装置、设备、存储介质和程序产品

站点导航

APP 下载