摘要
本发明实施例提供了一种结合多层次知识蒸馏的查重小语言模型训练方法,该方法包括:获取查重样本对,并根据查重样本对的文本特征,确定查重样本对的复杂度;根据查重样本对的复杂度,确定教师模型的蒸馏层级,以及,确定教师模型的每个蒸馏层级的加权系数;根据教师模型的每个网络蒸馏的加权系数、教师模型的每个蒸馏层级的第一输出结果,以及学生模型的每个蒸馏层级的第二输出结果,确定教师模型与学生模型之间的蒸馏损失;根据教师模型与学生模型之间的蒸馏损失,对学生模型的参数进行更新;重复上述步骤,直至更新后的学生模型满足预设条件,则将更新后的学生模型作为查重小语言模型,从而实现了低功耗、高精度的查重效果。
技术关键词
蒸馏
层级
教师
学生
语言模型训练方法
样本
复杂度
文本
多层次
语义
上存储计算机程序
网络
参数更新模块
模型训练装置
密度
可读存储介质
处理器
关系
输出模块
系统为您推荐了相关专利信息
数值天气预报
深度神经网络训练
光伏电站功率
站点
时序特征
数据清洗系统
子模块
冗余
统一语义理解
蒙特卡洛树搜索