摘要
本申请提供了PDF查找模式结合OCR识别的内容检索方法,涉及信息检索技术领域,通过识别当前图像化PDF文件的内容格式,获取多个内容格式;在多个内容格式之间进行OCR识别异同性分析,获取对应的多个异同性指标;根据多个异同性指标进行分类,输出N类内容格式;按照内容格式的文本特征,构建N个内容识别模型;获取用户检索关键词,调用N个内容识别模型在文件中进行关键词检索,输出对应的多个内容检索返回结果,并在文件中进行定位显示。本申请解决了现有检索方法无法有效识别不同格式之间的关系和差异,导致极易出现识别错误和遗漏的技术问题,达到了提升图像化PDF文件内容检索的效率和准确性的技术效果。
技术关键词
格式
内容检索方法
识别误差
更新模型参数
图像
关键词
文本
指标
信息检索技术
模型预测值
标记
模式
对比度
表达式
模块
度量
字符
速度