一种降低PDF文件错别字检测误报率的方法及系统

AITNT
正文
推荐专利
一种降低PDF文件错别字检测误报率的方法及系统
申请号:CN202410890367
申请日期:2024-07-04
公开号:CN118780270A
公开日期:2024-10-15
类型:发明专利
摘要
本发明涉及一种降低PDF文件错别字检测误报率的方法及系统,包括采集待检测PDF文件提取第一待检测文本,对第一待检测文本进行错别字检测,获取第一待检测文本的错别字检测结果构成第一文本错别字集合;格式化第一待检测文本获取第二待检测文本;对第二待检测文本进行错别字检测获取第二待检测文本的错别字检测结果;基于第二待检测文本的错别字检测结果获取第二待检测文本中错别字在第一待检测文本中对应的位置信息并构成第二文本错别字集合;对第一文本错别字集合和第二文本错别字集合取交集,作为最终错别字检测结果。本发明通过将文本格式化后进行二次检测能够有效提高错别字检测的准确率,降低错别字的误报率,进而有效提升PDF文件文本校正效率。
技术关键词
格式化 处理器上执行程序 位置映射算法 模型检测技术 错误检测方法 文本校正 数据处理模块 汉字 输出模块 存储器 电子设备 纠错 脚本
系统为您推荐了相关专利信息
1
一种企业管理咨询测评服务系统
企业管理咨询 服务系统 分析模块 存储模块 数据显示模块
2
一种基于多模态大语言模型的农作物虫害智能识别与预警系统
农作物虫害 大语言模型 预警系统 多模态 生成对抗网络
3
一种适用于组织建设业务考评系统的数据处理方法与系统
权重分配机制 考评系统 组织 数据处理方法 自然语言文本
4
基于大模型的多层级领域知识问答方法及装置
知识问答方法 意图类别 文本 层级 意图识别
5
一种自适应感知的事件要素抽取方法
事件要素抽取方法 复杂度 深度学习模型 语法特征 句法结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号