基于稀疏大语言模型的蒸馏方法、电子设备和存储介质

AITNT
正文
推荐专利
基于稀疏大语言模型的蒸馏方法、电子设备和存储介质
申请号:CN202510307864
申请日期:2025-03-14
公开号:CN120218180A
公开日期:2025-06-27
类型:发明专利
摘要
本申请实施例公开基于稀疏大语言模型的蒸馏方法、电子设备和存储介质,包括:获取教师模型和学生模型,对所述教师模型和所述学生模型进行至少一轮训练;对至少一轮训练的每个批次的数据前向传播计算所述教师模型和所述学生模型的输出,通过动态系数策略计算蒸馏损失,通过知识对齐模块计算中间层对齐损失;获取任务特定损失,结合所述任务特定损失、所述动态系数策略蒸馏损失和所述中间层对齐损失计算总损失;反向传播更新所述学生模型参数,在验证集上评估所述学生模型性能,并根据验证性能调整动态系数参数;保存性能最佳的学生模型,并使用贝叶斯蒸馏优化调整超参数。
技术关键词
学生 教师 超参数 中间层 大语言模型 蒸馏方法 对齐模块 动态 策略 误差加权 电子设备 剪枝方法 定义 处理器通信 存储器 数据 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号