摘要
本申请提供了一种结合候选字符生成策略的地理文本校正方法,属于自然语言处理技术领域,具体包括基于道路网数据以及出行类应用程序数据,构建含有地理信息文本的地理信息语料库;构建初始软掩码BERT模型;在初始软掩码BERT模型的候选字符集中增加形近字计算策略,获得软掩码BERT模型;利用地理信息语料库对软掩码BERT模型进行训练;利用训练后的软掩码BERT模型对待校正地理文本进行校正。通过本申请的处理方案,提高了形近字文本校正率。
技术关键词
文本校正方法
BERT模型
字符
纠错模块
地理兴趣点
策略
序列
门控循环单元
汉字结构
数据
自然语言
表达式
基础
编码
参数
系统为您推荐了相关专利信息
安全漏洞发现方法
对抗性
信息显示设备
机制
人工智能模型