摘要
本发明公开了一种中文航行通告文本纠错方法、计算机程序产品及终端,属于航行通告处理领域,包括:计算航行通告中汉字的读音/字形相似度;根据读音/字形相似度确定每个汉字的近义词,建立近义词词库;使用近义词词库中近义词替代原航行通告中原始字符或词汇进而生成新序列,使MacBERT模型根据新序列预测生成纠正后序列。针对航行通道的文本处理,本发明通过读音/字形相似度确定各汉字的近义词并构建近义词词库,采用近义词词库优化模型中的替换源,得到新的掩码词汇,在MacBERT模型的掩码语言模型阶段,针对本发明的研究问题,选择与原文本相似度高的近义词作为掩码词,以此提升对特定问题的预测精准度以及处理效率。
技术关键词
文本纠错方法
汉字
计算机程序产品
字符
掩膜
网络
BERT模型
序列
图谱
关系
处理器
终端
节点
存储器
指令
阶段
通道
系统为您推荐了相关专利信息
打印控制方法
环形缓冲区
指针
字符
非暂态计算机可读存储介质