PDF查找模式结合OCR识别的内容检索方法

正文

推荐专利

申请号：CN202411628999

申请日期：2024-11-15

公开号：CN119128192B

公开日期：2025-03-04

类型：发明专利

摘要

本申请提供了PDF查找模式结合OCR识别的内容检索方法，涉及信息检索技术领域，通过识别当前图像化PDF文件的内容格式，获取多个内容格式；在多个内容格式之间进行OCR识别异同性分析，获取对应的多个异同性指标；根据多个异同性指标进行分类，输出N类内容格式；按照内容格式的文本特征，构建N个内容识别模型；获取用户检索关键词，调用N个内容识别模型在文件中进行关键词检索，输出对应的多个内容检索返回结果，并在文件中进行定位显示。本申请解决了现有检索方法无法有效识别不同格式之间的关系和差异，导致极易出现识别错误和遗漏的技术问题，达到了提升图像化PDF文件内容检索的效率和准确性的技术效果。

技术关键词

格式内容检索方法识别误差更新模型参数图像关键词文本指标信息检索技术模型预测值标记模式对比度表达式模块度量字符速度

PDF查找模式结合OCR识别的内容检索方法

站点导航

APP 下载