摘要
本发明公开了一种航行通告文本自动纠错方法、系统、存储介质及终端,属于文本处理技术领域,方法包括:S1、提取航行通告文本E项中的汉字,并结合常见汉字构建汉字数据库;S2、基于所述汉字数据库计算字音相似度并构建字音知识图谱;基于所述汉字数据库计算字形相似度并构建字形知识图谱;S3、融合所述字音相似度和字形相似度,得到相似词库;S4、根据所述相似词库构建并训练自动纠错模型,所述自动纠错模型在CKBERT的掩码语言模型中利用相似词替换掩码,并构建正负样本加入多跳知识对比学习任务中;S5、利用训练好的自动纠错模型对航行通告文本进行纠错。本发明针对现有文本纠错模型进行改进,优化模型表达能力,提升了航行通告文本纠错性能。
技术关键词
汉字
纠错方法
自动纠错系统
词袋模型
样本
无监督
三元组
文本处理技术
知识图谱构建
实体
关系
可读存储介质
纠错模块
计算机
处理器
节点特征