大语言模型知识蒸馏的自然语言处理方法、装置及设备

正文

推荐专利

申请号：CN202510865556

申请日期：2025-06-26

公开号：CN120781049A

公开日期：2025-10-14

类型：发明专利

摘要

本发明提供大语言模型知识蒸馏的自然语言处理方法、装置及设备，涉及知识蒸馏技术领域。本发明能够通过在监督微调阶段，对教师模型的各中间层特征进行聚合和降维，与学生模型中间层特征对齐，将教师模型的各中间层特征动态映射到学生模型的各中间层。各中间层特征对齐后，基于教师模型与学生模型的中间层特征差异，构建损失函数，以此训练学生模型。由此，训练得到的学生模型不仅能够模仿教师模型的输出结果，还能够学习到教师模型的推理逻辑与决策路径等深层特征。学生模型能够学习到教师模型不同层次的特征信息，从而更好地理解和模仿教师模型的推理过程，提升了学生模型自然语言处理的准确率。

技术关键词

中间层学生教师大语言模型分析自然语言知识蒸馏技术注意力适配器对齐模块滑动窗口文本存储器策略处理器电子设备决策逻辑

系统为您推荐了相关专利信息

一种补考重修自动排考算法

试卷时间段列表组合表学生

一种用于英语教学的智能型英语教学系统

数据储存服务器学生视频传输设备视频显示设备模块

基于人工智能的学生学习状态监督方法、装置、终端设备以及存储介质

文本生成模型关键词学生学习状态三元组关节

基于物联网的档案信息安全追踪与实时监控系统及方法

关键词分类档案实时监控系统神经网络模型检测设备

基于多模态大模型的文本到图像生成模型评估方法及系统

图像生成模型多模态文本生成图像集合大语言模型

大语言模型知识蒸馏的自然语言处理方法、装置及设备

站点导航

APP 下载