一种基于深度学习的PDF文档智能识别与内容抽取方法

正文

推荐专利

申请号：CN202511309941

申请日期：2025-09-15

公开号：CN120808373B

公开日期：2025-12-12

类型：发明专利

摘要

本发明公开了一种基于深度学习的PDF文档智能识别与内容抽取方法，涉及人工智能、深度学习、计算机视觉和文档图像处理技术领域，包括：得到每个表格在PDF整页图像中的定位表格区域；得到基础网格结构；得到具有跨行或跨列结构的单元格；利用结构校验网络对具有跨行或跨列结构的单元格进行一致性检测与修复，得到修复后的表格结构；对修复后的表格结构中每个逻辑单元格进行文本识别，并绑定每个逻辑单元格对应的行列位置信息，得到可输出为预设结构化格式的表格内容。本发明能够有效处理扫描件、图片等多种形式的PDF表格，适应不同的表格样式、字体及背景，降低了对输入图像质量的要求，确保了高精度的表格识别与内容提取。

技术关键词

内容抽取方法逻辑表格区域识别一致性检测文档图像处理技术文本识别执行光学字符识别定位框序列评分机制结构先验知识加权编辑距离网格卷积神经网络提取视觉特征

系统为您推荐了相关专利信息

一种TR组件控制方法

TR组件控制脉冲宽度调制信号 AD采样模块数据写入控制工作状态反馈功能

一种多功能线性卷积加速器

卷积加速器控制模块子模块滑动窗口端口

一种多能互补供热系统及其分层协同运行控制方法

供热系统热源设备调度控制策略协同运行控制方法中央控制器

预测非小细胞肺癌免疫治疗临床获益的生物标志物组合及其应用

非小细胞肺癌肺癌免疫治疗生物标志物电化学发光技术人类白细胞抗原

通信业务风险评估方法及装置

业务风险评估方法字典策略朴素贝叶斯算法支持向量机算法

一种基于深度学习的PDF文档智能识别与内容抽取方法

站点导航

APP 下载