摘要
本申请实施例公开基于稀疏大语言模型的蒸馏方法、电子设备和存储介质,包括:获取教师模型和学生模型,对所述教师模型和所述学生模型进行至少一轮训练;对至少一轮训练的每个批次的数据前向传播计算所述教师模型和所述学生模型的输出,通过动态系数策略计算蒸馏损失,通过知识对齐模块计算中间层对齐损失;获取任务特定损失,结合所述任务特定损失、所述动态系数策略蒸馏损失和所述中间层对齐损失计算总损失;反向传播更新所述学生模型参数,在验证集上评估所述学生模型性能,并根据验证性能调整动态系数参数;保存性能最佳的学生模型,并使用贝叶斯蒸馏优化调整超参数。
技术关键词
学生
教师
超参数
中间层
大语言模型
蒸馏方法
对齐模块
动态
策略
误差加权
电子设备
剪枝方法
定义
处理器通信
存储器
数据
标签