摘要
本发明属于PDF文件解析技术领域提供了一种PDF转Word二维数组表格识别方法、装置及可读存储介质。采用本发明,直接读取PDF底层的操作符信息,根据操作符携带的信息,来生成线框信息,再将线框信息转换成二维数组,不需要再关注线段的连续性已经是否应该合并,在转换二维数组的过程中实际上已经借助数组完成了这件事,后续利用感染算法、孤岛算法、预处理数组,可以快速的定位出表格区域、单元格区域以及边框信息,由此极大的提升了表格的识别生成效率,兼具了速度和准确性的优势。
技术关键词
表格识别方法
上边框
线段
文件解析技术
算法
坐标
存储计算机程序
存储器
线框
连续性
处理器
可读存储介质
矩形
页面
顶点
规模
空隙
曲线
系统为您推荐了相关专利信息
离线
渲染系统
校验模块
打包模块
生成可执行文件
异常检测方法
非易失性存储介质
检测编码器
适配器
计算机可读指令
扭矩控制方法
加速度
车辆驱动控制
计算方法
校正
预后预测模型
标志物
基因
风险评估模型
随机森林