基于中间层对齐的异构师生模型知识蒸馏方法

AITNT
正文
推荐专利
基于中间层对齐的异构师生模型知识蒸馏方法
申请号:CN202410805854
申请日期:2024-06-21
公开号:CN118734934A
公开日期:2024-10-01
类型:发明专利
摘要
本发明公开了一种基于中间层对齐的异构师生模型知识蒸馏方法,属于自然语言处理领域,提取教师模型与学生模型的中间层输出结果并进行中间层蒸馏对象的选择;设计中间层映射规则和维度转换模块以实现异构模型间基于中间层的知识对齐;根据不同的蒸馏部位设计相应的蒸馏损失函数以融合师生模型间各部位的损失值;最后调节各部分蒸馏的损失权重配比以达到蒸馏效果的优化与提升。本发明通过引入对师生模型中间层蒸馏结果的探索,克服了目前主流的生成式大语言模型蒸馏算法仅考虑到师生模型间的最后输出层损失的问题,提出了更普适于异构生成式大语言模型的中间层蒸馏算法,在多个相关数据集上的蒸馏效果均获得了显著提升。
技术关键词
中间层 知识蒸馏方法 大语言模型 异构 教师 学生 网格搜索方法 映射方法 误差函数 对象 自然语言 模块 线性 注意力 数值 算法 分块 参数 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号