摘要
本发明公开了一种基于深度学习的PDF文档智能识别与内容抽取方法,涉及人工智能、深度学习、计算机视觉和文档图像处理技术领域,包括:得到每个表格在PDF整页图像中的定位表格区域;得到基础网格结构;得到具有跨行或跨列结构的单元格;利用结构校验网络对具有跨行或跨列结构的单元格进行一致性检测与修复,得到修复后的表格结构;对修复后的表格结构中每个逻辑单元格进行文本识别,并绑定每个逻辑单元格对应的行列位置信息,得到可输出为预设结构化格式的表格内容。本发明能够有效处理扫描件、图片等多种形式的PDF表格,适应不同的表格样式、字体及背景,降低了对输入图像质量的要求,确保了高精度的表格识别与内容提取。
技术关键词
内容抽取方法
逻辑
表格区域识别
一致性检测
文档图像处理技术
文本识别
执行光学字符识别
定位框
序列
评分机制
结构先验知识
加权编辑距离
网格
卷积神经网络提取
视觉特征
系统为您推荐了相关专利信息
TR组件控制
脉冲宽度调制信号
AD采样模块
数据写入控制
工作状态反馈功能
供热系统
热源设备
调度控制策略
协同运行控制方法
中央控制器
非小细胞肺癌
肺癌免疫治疗
生物标志物
电化学发光技术
人类白细胞抗原
业务风险评估方法
字典
策略
朴素贝叶斯算法
支持向量机算法