一种PDF扫描件识别方法、设备及介质

正文

推荐专利

一种PDF扫描件识别方法、设备及介质

申请号：CN202411051353

申请日期：2024-08-01

公开号：CN118982838A

公开日期：2024-11-19

类型：发明专利

摘要

本申请实施例公开了一种PDF扫描件识别方法、设备及介质，属于数据处理技术领域，解决PDF文件中数据类型多样，识别后的文件内容准确率较低的问题。对待识别PDF文件进行拆页，得到多个页面图片，并对多个页面图片进行编码标注；基于页面内容，将多个页面图片进行分类；其中，图片类别包括纯文本图片、复杂版面图片以及自然图片；将分类后的页面图片分别输入相应的信息识别模型，通过多模型协同输出相应的信息内容；其中，信息内容至少包括页面图像对应的识别后的数据以及识别后的数据在页面图像中的位置；基于标注的编码以及信息内容，将多个页面图片对应的信息内容进行组合，以得到待识别PDF文件对应的word文档。

技术关键词

页面图片识别PDF文件多模型协同识别方法图片分类模型图片类别页面内容非易失性计算机存储介质计算机可执行指令自然场景数据图像文本编码矫正关键词计算机程序指令格式模板

系统为您推荐了相关专利信息

一种基于斜率分布估计与平稳性检验的地下多目标识别方法

阈值算法斜率信息多项式像素点矩阵

发动机故障识别方法、装置、设备及工程机械

计算机执行指令故障识别方法动态发动机数据

一种基于深度学习的超声图像自动分割与识别方法

识别方法超声图像数据多任务联合学习多模态信息融合图像去噪技术

异常数据源识别方法、装置、设备、介质和产品

实体异常信息层级识别方法图谱

一种基于自我知识蒸馏的SAR图像识别方法

光学遥感图像图像识别方法蒸馏分类器遥感图像识别

一种PDF扫描件识别方法、设备及介质

站点导航

APP 下载