摘要
本发明公开了一种基于中间层对齐的异构师生模型知识蒸馏方法,属于自然语言处理领域,提取教师模型与学生模型的中间层输出结果并进行中间层蒸馏对象的选择;设计中间层映射规则和维度转换模块以实现异构模型间基于中间层的知识对齐;根据不同的蒸馏部位设计相应的蒸馏损失函数以融合师生模型间各部位的损失值;最后调节各部分蒸馏的损失权重配比以达到蒸馏效果的优化与提升。本发明通过引入对师生模型中间层蒸馏结果的探索,克服了目前主流的生成式大语言模型蒸馏算法仅考虑到师生模型间的最后输出层损失的问题,提出了更普适于异构生成式大语言模型的中间层蒸馏算法,在多个相关数据集上的蒸馏效果均获得了显著提升。
技术关键词
中间层
知识蒸馏方法
大语言模型
异构
教师
学生
网格搜索方法
映射方法
误差函数
对象
自然语言
模块
线性
注意力
数值
算法
分块
参数
数据