一种降低PDF文件错别字检测误报率的方法及系统

正文

推荐专利

申请号：CN202410890367

申请日期：2024-07-04

公开号：CN118780270A

公开日期：2024-10-15

类型：发明专利

摘要

本发明涉及一种降低PDF文件错别字检测误报率的方法及系统，包括采集待检测PDF文件提取第一待检测文本，对第一待检测文本进行错别字检测，获取第一待检测文本的错别字检测结果构成第一文本错别字集合；格式化第一待检测文本获取第二待检测文本；对第二待检测文本进行错别字检测获取第二待检测文本的错别字检测结果；基于第二待检测文本的错别字检测结果获取第二待检测文本中错别字在第一待检测文本中对应的位置信息并构成第二文本错别字集合；对第一文本错别字集合和第二文本错别字集合取交集，作为最终错别字检测结果。本发明通过将文本格式化后进行二次检测能够有效提高错别字检测的准确率，降低错别字的误报率，进而有效提升PDF文件文本校正效率。

技术关键词

格式化处理器上执行程序位置映射算法模型检测技术错误检测方法文本校正数据处理模块汉字输出模块存储器电子设备纠错脚本

系统为您推荐了相关专利信息

一种企业管理咨询测评服务系统

企业管理咨询服务系统分析模块存储模块数据显示模块

一种基于多模态大语言模型的农作物虫害智能识别与预警系统

农作物虫害大语言模型预警系统多模态生成对抗网络

一种适用于组织建设业务考评系统的数据处理方法与系统

权重分配机制考评系统组织数据处理方法自然语言文本

基于大模型的多层级领域知识问答方法及装置

知识问答方法意图类别文本层级意图识别

一种自适应感知的事件要素抽取方法

事件要素抽取方法复杂度深度学习模型语法特征句法结构

一种降低PDF文件错别字检测误报率的方法及系统

站点导航

APP 下载