基于稀疏神经网络的大语言模型训练方法和装置

正文

推荐专利

申请号：CN202410880814

申请日期：2024-07-02

公开号：CN119647543A

公开日期：2025-03-18

类型：发明专利

摘要

本发明提供一种基于稀疏神经网络的大语言模型训练方法和装置，包括：对于每个训练步数，在当前时刻是结构调整时刻的情况下，根据当前训练步数确定目标稀疏度，根据所述目标稀疏度和结构演化准则确定剪枝边集和生长边集，根据所述剪枝边集和生长边集调整待训练模型的网络结构；在当前时刻不是结构调整时刻的情况下，根据当前训练步数利用混合稀疏注意力机制确定注意力步长，根据所述注意力步长对所述待训练模型进行参数更新。本发明结合动态演化的稀疏网络结构和混合稀疏注意力机制对待训练模型进行训练，以同时保持模型性能和最大限度地减少训练计算开销。

技术关键词

语言模型训练方法稀疏神经网络注意力机制网络结构非暂态计算机可读存储介质模型训练装置处理器计算机程序产品参数存储器电子设备动态频率

系统为您推荐了相关专利信息

一种基于MRR-KELM的涡轴发动机辨识及预测控制方法

预测控制方法发动机动力涡轮算法模型非线性模型预测控制

教学方法的评测方法、评测系统、电子设备及存储介质

评测方法教学方法教学分析数据视频评测系统

一种蔬菜生产指数测算方法及系统

粒子估算误差高光谱成像技术归一化植被指数表达式

图像分割方法、装置、设备及介质

血管智能模型图像分割方法光学相干断层扫描局部特征提取

一种列车火灾车云预警预测系统及方法

预警预测方法预警模型火灾联动控制系统融合特征实时数据传输

基于稀疏神经网络的大语言模型训练方法和装置

站点导航

APP 下载