摘要
本发明提供一种基于稀疏神经网络的大语言模型训练方法和装置,包括:对于每个训练步数,在当前时刻是结构调整时刻的情况下,根据当前训练步数确定目标稀疏度,根据所述目标稀疏度和结构演化准则确定剪枝边集和生长边集,根据所述剪枝边集和生长边集调整待训练模型的网络结构;在当前时刻不是结构调整时刻的情况下,根据当前训练步数利用混合稀疏注意力机制确定注意力步长,根据所述注意力步长对所述待训练模型进行参数更新。本发明结合动态演化的稀疏网络结构和混合稀疏注意力机制对待训练模型进行训练,以同时保持模型性能和最大限度地减少训练计算开销。
技术关键词
语言模型训练方法
稀疏神经网络
注意力机制
网络结构
非暂态计算机可读存储介质
模型训练装置
处理器
计算机程序产品
参数
存储器
电子设备
动态
频率
系统为您推荐了相关专利信息
预测控制方法
发动机
动力涡轮
算法模型
非线性模型预测控制
粒子
估算误差
高光谱成像技术
归一化植被指数
表达式
血管
智能模型
图像分割方法
光学相干断层扫描
局部特征提取
预警预测方法
预警模型
火灾联动控制系统
融合特征
实时数据传输