摘要
本发明涉及基于持续知识蒸馏的语法错误纠正方法、系统,属自然语言处理领域。本发明将蒸馏知识集作为教师模型与学生模型的输入,以输出的信息熵为基础进行量化打分,将蒸馏知识集划分为正集和负集;构建基于分布的蒸馏策略,使学生模型在正集上向教师模型学习,负集上学生模型避免犯教师模型同样的错误,实现知识蒸馏;构建知识继承策略,实现学生模型持续学习;通过知识蒸馏、学生模型持续学习和学生模型训练损失,产生训练总损失;根据训练总损失计算损失函数梯度,根据梯度及学习率更新模型参数权重,得到最终的语法错误纠正模型。本发明解决模型训练性能不高,平行语料库缺少问题,实现高效的知识转移,提升语法纠错模型效果。
技术关键词
学生
纠正方法
教师
蒸馏
信息熵
更新模型参数
平行语料库
标签
余弦定理
训练集
策略
纠错
数据
自然语言
编码
计算方法
优化器
超参数
定义