摘要
本发明提出基于实体信息增强的中文拼写纠错方法、装置、计算机可读存储介质。本发明收集了公开的实体词典,并对其进一步扩展;利用扩展后的实体词典和搜集的无标注语料,构建了一个专注实体的中文拼写语料,并利用三种不同的掩码策略来隐藏语料中的实体信息;使用所构建的语料对预训练语言模型微调,以增强模型对浅层实体信息的关注,并进一步增强模型中的实体表征,从而使得模型更加适应于中文拼写纠错场景;本发明通过模型集成技术融合不同模型中的实体信息,以进一步提升模型在中文拼写纠错任务中的性能表现。本发明在保持中文拼写纠错效能的同时,显著提升了对于实体信息的关注度,有效纠错错误句子中的实体错误,从而验证了该方法的有效性。
技术关键词
拼写纠错方法
预训练语言模型
命名实体识别模型
掩码策略
词典
命名实体模型
上采样技术
可读存储介质
通信接口
处理器
计算机存储介质
纠错装置
维基百科
存储计算机程序
计算机程序产品
系统为您推荐了相关专利信息
编码模块
实体识别模型
大语言模型
残差模块
信息处理单元
故障知识库
设备故障诊断
锂电
智能问答方法
数据