Transformer大语言模型的训练方法、装置、设备、存储介质和程序产品

AITNT
正文
推荐专利
Transformer大语言模型的训练方法、装置、设备、存储介质和程序产品
申请号:CN202510887923
申请日期:2025-06-30
公开号:CN120911515A
公开日期:2025-11-07
类型:发明专利
摘要
本申请涉及一种Transformer大语言模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。包括:根据特征处理网络的输入特征矩阵和特征处理网络的输出特征矩阵,计算压缩系数;根据压缩系数对输入特征矩阵进行压缩;将压缩后的输入特征矩阵和输出特征矩阵相加,得到输出矩阵;将输出矩阵提供给下一网络层;根据Transformer大语言模型的输出结果和训练样本数据对应的标签进行模型训练。本方法动态且自适应地计算压缩系数,基于该压缩系数压缩冗余信息,能够解决大语言模型的训练过程中,残差连接引入的冗余信息的问题,减少训练过程中的冗余信息,从而提升大语言模型的训练效率,降低训练成本。
技术关键词
矩阵 输出特征 训练样本数据 网络 大语言模型 计算机程序产品 计算机设备 标签 可读存储介质 处理器 冗余 训练装置 存储器 模块 动态 参数
系统为您推荐了相关专利信息
1
一种基于包含障碍函数的能量罐的机械臂变阻抗控制方法
拉格朗日模型 机械臂末端执行器 阻抗控制方法 雅克比矩阵 关节力矩
2
文本生成的方法、装置、电子设备及可读存储介质
文本 生成提示词 大语言模型 意图识别模型 语义
3
一种基于图像识别的电厂工作人员动态监测方法
动态监测方法 骨架姿态 高维特征向量 监控平台 深度图
4
一种小语种威胁情报线索拓展方法、系统、设备及介质
威胁情报库 线索 大语言模型 文本 摘要
5
基于5G和边缘计算的急救资源智能联动方法及系统
轻量化神经网络 生命体征数据 超声影像数据 智能联动方法 灰度统计特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号