一种基于深度学习的PDF文档智能识别与内容抽取方法

AITNT
正文
推荐专利
一种基于深度学习的PDF文档智能识别与内容抽取方法
申请号:CN202511309941
申请日期:2025-09-15
公开号:CN120808373B
公开日期:2025-12-12
类型:发明专利
摘要
本发明公开了一种基于深度学习的PDF文档智能识别与内容抽取方法,涉及人工智能、深度学习、计算机视觉和文档图像处理技术领域,包括:得到每个表格在PDF整页图像中的定位表格区域;得到基础网格结构;得到具有跨行或跨列结构的单元格;利用结构校验网络对具有跨行或跨列结构的单元格进行一致性检测与修复,得到修复后的表格结构;对修复后的表格结构中每个逻辑单元格进行文本识别,并绑定每个逻辑单元格对应的行列位置信息,得到可输出为预设结构化格式的表格内容。本发明能够有效处理扫描件、图片等多种形式的PDF表格,适应不同的表格样式、字体及背景,降低了对输入图像质量的要求,确保了高精度的表格识别与内容提取。
技术关键词
内容抽取方法 逻辑 表格区域识别 一致性检测 文档图像处理技术 文本识别 执行光学字符识别 定位框 序列 评分机制 结构先验知识 加权编辑距离 网格 卷积神经网络提取 视觉特征
系统为您推荐了相关专利信息
1
一种TR组件控制方法
TR组件控制 脉冲宽度调制信号 AD采样模块 数据写入控制 工作状态反馈功能
2
一种多功能线性卷积加速器
卷积加速器 控制模块 子模块 滑动窗口 端口
3
一种多能互补供热系统及其分层协同运行控制方法
供热系统 热源设备 调度控制策略 协同运行控制方法 中央控制器
4
预测非小细胞肺癌免疫治疗临床获益的生物标志物组合及其应用
非小细胞肺癌 肺癌免疫治疗 生物标志物 电化学发光技术 人类白细胞抗原
5
通信业务风险评估方法及装置
业务风险评估方法 字典 策略 朴素贝叶斯算法 支持向量机算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号