摘要
本申请提供一种知识蒸馏方法、装置、设备、存储介质及程序产品,涉及自然语言处理领域。该方法包括:获取多个教师模型各自在当前次迭代的蒸馏权重,根据蒸馏权重和教师模型的模型参数确定学生模型的模型参数,基于代理语料通过当前次迭代的学生模型执行预设的自然语言处理任务,根据学生模型的输出值确定训练损失,再根据训练损失确定是否继续迭代以得到知识蒸馏后的学生模型。该知识蒸馏方法中的代理预料是从原始语料中选取的部分语料,可以减少知识蒸馏使用的数据量,使学生模型在小数据量的代理语料上执行预设的自然语言处理任务,并根据任务执行结果调整教师模型的蒸馏权重,可以降低知识蒸馏的耗时,加快知识蒸馏速度。
技术关键词
知识蒸馏方法
学生
自然语言
教师
计算机执行指令
编码
蒸馏装置
参数
基因算法
可读存储介质
计算机程序产品
处理器通信
存储器
模块
元素
电子设备
系统为您推荐了相关专利信息
节点特征
实体关系抽取方法
文本
语义
神经网络模型
面向全过程
协同管理方法
分解特征
文本特征向量
标签
智慧课堂
注意力机制
多尺度特征融合
学生
信息数据处理终端