语言模型训练方法、任务处理方法及装置

正文

推荐专利

语言模型训练方法、任务处理方法及装置

申请号：CN202510111030

申请日期：2025-01-23

公开号：CN120181147A

公开日期：2025-06-20

类型：发明专利

摘要

本发明提供一种语言模型训练方法、任务处理方法及装置，其中方法包括：将上一次迭代训练后的初始语言模型的前馈神经网络中的目标线性层的输出通道，按照分组信息和当前稀疏度进行稀疏化处理；将上一次迭代训练后的初始语言模型的多头注意力网络中的多个注意力头的权重矩阵，按照分组信息进行稀疏化处理或压缩处理；根据处理后的前馈神经网络和处理后的多头注意力网络，构建当前次迭代训练对应的待训练语言模型，根据样本语言数据及其对应的任务处理标签，对待训练语言模型进行训练，得到当前次迭代训练后的初始语言模型，以构建目标语言模型。本发明实现保障模型训练效率的同时，降低模型训练成本和稳定性，以提升语言任务的处理性能。

技术关键词

语言模型训练方法训练语言模型前馈神经网络注意力热启动矩阵通道样本非暂态计算机可读存储介质数据处理单元模型训练装置线性标签解码器处理器模块语义存储器

系统为您推荐了相关专利信息

用于农业灌区节水的实时动态监测系统及方法

作物生长状态生长状态图像编码向量动态监测系统时序

一种基于卷积神经网络的遥感影像地物分类方法及系统

遥感影像地物分类表达式极化特征深度学习特征多模态

一种基于扩散模型的有限角度CT重建系统

重建系统数据反投影算子模块通道

一种基于长时视频分析的施工进度预测方法和装置

施工机械仿真模型施工作业现场施工作业面资源

一种基于YOLOv8的斑马鱼表型识别及定量分析方法

实例分割网络定量分析方法网络结构特征金字塔网络数据

语言模型训练方法、任务处理方法及装置

站点导航

APP 下载