摘要
本发明提供一种语言模型训练方法、任务处理方法及装置,其中方法包括:将上一次迭代训练后的初始语言模型的前馈神经网络中的目标线性层的输出通道,按照分组信息和当前稀疏度进行稀疏化处理;将上一次迭代训练后的初始语言模型的多头注意力网络中的多个注意力头的权重矩阵,按照分组信息进行稀疏化处理或压缩处理;根据处理后的前馈神经网络和处理后的多头注意力网络,构建当前次迭代训练对应的待训练语言模型,根据样本语言数据及其对应的任务处理标签,对待训练语言模型进行训练,得到当前次迭代训练后的初始语言模型,以构建目标语言模型。本发明实现保障模型训练效率的同时,降低模型训练成本和稳定性,以提升语言任务的处理性能。
技术关键词
语言模型训练方法
训练语言模型
前馈神经网络
注意力
热启动
矩阵
通道
样本
非暂态计算机可读存储介质
数据
处理单元
模型训练装置
线性
标签
解码器
处理器
模块
语义
存储器
系统为您推荐了相关专利信息
作物生长状态
生长状态图像
编码向量
动态监测系统
时序
遥感影像地物分类
表达式
极化特征
深度学习特征
多模态
施工机械
仿真模型
施工作业现场
施工作业面
资源
实例分割网络
定量分析方法
网络结构
特征金字塔网络
数据