基于稀疏大语言模型的蒸馏方法、电子设备和存储介质

正文

推荐专利

申请号：CN202510307864

申请日期：2025-03-14

公开号：CN120218180A

公开日期：2025-06-27

类型：发明专利

摘要

本申请实施例公开基于稀疏大语言模型的蒸馏方法、电子设备和存储介质，包括：获取教师模型和学生模型，对所述教师模型和所述学生模型进行至少一轮训练；对至少一轮训练的每个批次的数据前向传播计算所述教师模型和所述学生模型的输出，通过动态系数策略计算蒸馏损失，通过知识对齐模块计算中间层对齐损失；获取任务特定损失，结合所述任务特定损失、所述动态系数策略蒸馏损失和所述中间层对齐损失计算总损失；反向传播更新所述学生模型参数，在验证集上评估所述学生模型性能，并根据验证性能调整动态系数参数；保存性能最佳的学生模型，并使用贝叶斯蒸馏优化调整超参数。

技术关键词

学生教师超参数中间层大语言模型蒸馏方法对齐模块动态策略误差加权电子设备剪枝方法定义处理器通信存储器数据标签

基于稀疏大语言模型的蒸馏方法、电子设备和存储介质

站点导航

APP 下载