基于中间层对齐的异构师生模型知识蒸馏方法

正文

推荐专利

申请号：CN202410805854

申请日期：2024-06-21

公开号：CN118734934A

公开日期：2024-10-01

类型：发明专利

摘要

本发明公开了一种基于中间层对齐的异构师生模型知识蒸馏方法，属于自然语言处理领域，提取教师模型与学生模型的中间层输出结果并进行中间层蒸馏对象的选择；设计中间层映射规则和维度转换模块以实现异构模型间基于中间层的知识对齐；根据不同的蒸馏部位设计相应的蒸馏损失函数以融合师生模型间各部位的损失值；最后调节各部分蒸馏的损失权重配比以达到蒸馏效果的优化与提升。本发明通过引入对师生模型中间层蒸馏结果的探索，克服了目前主流的生成式大语言模型蒸馏算法仅考虑到师生模型间的最后输出层损失的问题，提出了更普适于异构生成式大语言模型的中间层蒸馏算法，在多个相关数据集上的蒸馏效果均获得了显著提升。

技术关键词

中间层知识蒸馏方法大语言模型异构教师学生网格搜索方法映射方法误差函数对象自然语言模块线性注意力数值算法分块参数数据

基于中间层对齐的异构师生模型知识蒸馏方法

站点导航

APP 下载