摘要
本发明属于PDF文件解析技术领域,提供了一种PDF转Word场景下跨行、跨列单元格识别方法、系统、装置及介质,其中,方法包括步骤S1:通过PDF表格识别方法,获取到所有的封闭图形信息,封闭图形信息具有top、bottom、left、right信息;步骤S2:封闭图形分类,并组合成表格的行信息;步骤S3:二阶段进行列信息初始化:将封闭图形分类,并组合成表格的列信息;步骤S4:计算跨行、跨列数;步骤S5:根据计算的跨行、跨列数,完成表格的构建。采用本发明,识别出PDF中的封闭矩形后,可以准确的识别出完整且准确的表格,使得在PDF转Word的场景下,可以准确并完整的转换出表格信息,并且本发明使用纯算法实现,不需要借助任何三方工具,速度具有极大的优势。
技术关键词
表格识别方法
遍历方法
场景
文件解析技术
线段
识别装置
存储计算机程序
算法
存储器
标记
基准
处理器
阶段
识别模块
可读存储介质
坐标
线框
系统为您推荐了相关专利信息
多层感知机
语义标签
动态卷积神经网络
数据
重建场景
人机交互框架
运动控制方法
仿真平台
生成轨迹
生成控制指令