摘要
本发明提供大语言模型知识蒸馏的自然语言处理方法、装置及设备,涉及知识蒸馏技术领域。本发明能够通过在监督微调阶段,对教师模型的各中间层特征进行聚合和降维,与学生模型中间层特征对齐,将教师模型的各中间层特征动态映射到学生模型的各中间层。各中间层特征对齐后,基于教师模型与学生模型的中间层特征差异,构建损失函数,以此训练学生模型。由此,训练得到的学生模型不仅能够模仿教师模型的输出结果,还能够学习到教师模型的推理逻辑与决策路径等深层特征。学生模型能够学习到教师模型不同层次的特征信息,从而更好地理解和模仿教师模型的推理过程,提升了学生模型自然语言处理的准确率。
技术关键词
中间层
学生
教师
大语言模型
分析自然语言
知识蒸馏技术
注意力
适配器
对齐模块
滑动窗口
文本
存储器
策略
处理器
电子设备
决策
逻辑
系统为您推荐了相关专利信息
数据储存服务器
学生
视频传输设备
视频显示设备
模块
关键词
分类档案
实时监控系统
神经网络模型
检测设备
图像生成模型
多模态
文本
生成图像集合
大语言模型