语言模型训练方法、任务处理方法及装置

AITNT
正文
推荐专利
语言模型训练方法、任务处理方法及装置
申请号:CN202510111030
申请日期:2025-01-23
公开号:CN120181147A
公开日期:2025-06-20
类型:发明专利
摘要
本发明提供一种语言模型训练方法、任务处理方法及装置,其中方法包括:将上一次迭代训练后的初始语言模型的前馈神经网络中的目标线性层的输出通道,按照分组信息和当前稀疏度进行稀疏化处理;将上一次迭代训练后的初始语言模型的多头注意力网络中的多个注意力头的权重矩阵,按照分组信息进行稀疏化处理或压缩处理;根据处理后的前馈神经网络和处理后的多头注意力网络,构建当前次迭代训练对应的待训练语言模型,根据样本语言数据及其对应的任务处理标签,对待训练语言模型进行训练,得到当前次迭代训练后的初始语言模型,以构建目标语言模型。本发明实现保障模型训练效率的同时,降低模型训练成本和稳定性,以提升语言任务的处理性能。
技术关键词
语言模型训练方法 训练语言模型 前馈神经网络 注意力 热启动 矩阵 通道 样本 非暂态计算机可读存储介质 数据 处理单元 模型训练装置 线性 标签 解码器 处理器 模块 语义 存储器
系统为您推荐了相关专利信息
1
用于农业灌区节水的实时动态监测系统及方法
作物生长状态 生长状态图像 编码向量 动态监测系统 时序
2
一种基于卷积神经网络的遥感影像地物分类方法及系统
遥感影像地物分类 表达式 极化特征 深度学习特征 多模态
3
一种基于扩散模型的有限角度CT重建系统
重建系统 数据 反投影算子 模块 通道
4
一种基于长时视频分析的施工进度预测方法和装置
施工机械 仿真模型 施工作业现场 施工作业面 资源
5
一种基于YOLOv8的斑马鱼表型识别及定量分析方法
实例分割网络 定量分析方法 网络结构 特征金字塔网络 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号