摘要
本发明涉及一种降低PDF文件错别字检测误报率的方法及系统,包括采集待检测PDF文件提取第一待检测文本,对第一待检测文本进行错别字检测,获取第一待检测文本的错别字检测结果构成第一文本错别字集合;格式化第一待检测文本获取第二待检测文本;对第二待检测文本进行错别字检测获取第二待检测文本的错别字检测结果;基于第二待检测文本的错别字检测结果获取第二待检测文本中错别字在第一待检测文本中对应的位置信息并构成第二文本错别字集合;对第一文本错别字集合和第二文本错别字集合取交集,作为最终错别字检测结果。本发明通过将文本格式化后进行二次检测能够有效提高错别字检测的准确率,降低错别字的误报率,进而有效提升PDF文件文本校正效率。
技术关键词
格式化
处理器上执行程序
位置映射算法
模型检测技术
错误检测方法
文本校正
数据处理模块
汉字
输出模块
存储器
电子设备
纠错
脚本
系统为您推荐了相关专利信息
企业管理咨询
服务系统
分析模块
存储模块
数据显示模块
农作物虫害
大语言模型
预警系统
多模态
生成对抗网络
权重分配机制
考评系统
组织
数据处理方法
自然语言文本
事件要素抽取方法
复杂度
深度学习模型
语法特征
句法结构