基于稀疏神经网络的大语言模型训练方法和装置

AITNT
正文
推荐专利
基于稀疏神经网络的大语言模型训练方法和装置
申请号:CN202410880814
申请日期:2024-07-02
公开号:CN119647543A
公开日期:2025-03-18
类型:发明专利
摘要
本发明提供一种基于稀疏神经网络的大语言模型训练方法和装置,包括:对于每个训练步数,在当前时刻是结构调整时刻的情况下,根据当前训练步数确定目标稀疏度,根据所述目标稀疏度和结构演化准则确定剪枝边集和生长边集,根据所述剪枝边集和生长边集调整待训练模型的网络结构;在当前时刻不是结构调整时刻的情况下,根据当前训练步数利用混合稀疏注意力机制确定注意力步长,根据所述注意力步长对所述待训练模型进行参数更新。本发明结合动态演化的稀疏网络结构和混合稀疏注意力机制对待训练模型进行训练,以同时保持模型性能和最大限度地减少训练计算开销。
技术关键词
语言模型训练方法 稀疏神经网络 注意力机制 网络结构 非暂态计算机可读存储介质 模型训练装置 处理器 计算机程序产品 参数 存储器 电子设备 动态 频率
系统为您推荐了相关专利信息
1
一种基于MRR-KELM的涡轴发动机辨识及预测控制方法
预测控制方法 发动机 动力涡轮 算法模型 非线性模型预测控制
2
教学方法的评测方法、评测系统、电子设备及存储介质
评测方法 教学方法 教学分析数据 视频 评测系统
3
一种蔬菜生产指数测算方法及系统
粒子 估算误差 高光谱成像技术 归一化植被指数 表达式
4
图像分割方法、装置、设备及介质
血管 智能模型 图像分割方法 光学相干断层扫描 局部特征提取
5
一种列车火灾车云预警预测系统及方法
预警预测方法 预警模型 火灾联动控制系统 融合特征 实时数据传输
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号