知识蒸馏方法、装置、设备、存储介质及程序产品

正文

推荐专利

申请号：CN202410749992

申请日期：2024-06-11

公开号：CN118627590A

公开日期：2024-09-10

类型：发明专利

摘要

本申请提供一种知识蒸馏方法、装置、设备、存储介质及程序产品，涉及自然语言处理领域。该方法包括：获取多个教师模型各自在当前次迭代的蒸馏权重，根据蒸馏权重和教师模型的模型参数确定学生模型的模型参数，基于代理语料通过当前次迭代的学生模型执行预设的自然语言处理任务，根据学生模型的输出值确定训练损失，再根据训练损失确定是否继续迭代以得到知识蒸馏后的学生模型。该知识蒸馏方法中的代理预料是从原始语料中选取的部分语料，可以减少知识蒸馏使用的数据量，使学生模型在小数据量的代理语料上执行预设的自然语言处理任务，并根据任务执行结果调整教师模型的蒸馏权重，可以降低知识蒸馏的耗时，加快知识蒸馏速度。

技术关键词

知识蒸馏方法学生自然语言教师计算机执行指令编码蒸馏装置参数基因算法可读存储介质计算机程序产品处理器通信存储器模块元素电子设备

系统为您推荐了相关专利信息

一种基于超图神经网络的多模态实体关系抽取方法

节点特征实体关系抽取方法文本语义神经网络模型

一种面向全过程工程咨询的多智能体协同管理方法及系统

面向全过程协同管理方法分解特征文本特征向量标签

一种轻量级智慧课堂学习行为检测方法及系统

智慧课堂注意力机制多尺度特征融合学生信息数据处理终端

一种结合大语言模型挖掘专利信息的处理方法和装置

表格分子文本序列大语言模型

基于梯度优化的硬提示优化方法、装置、设备及存储介质

大语言模型参数序列优化装置优化设备

知识蒸馏方法、装置、设备、存储介质及程序产品

站点导航

APP 下载