摘要
本发明公开了一种PDF中表格的提取解析方法,所述方法包括:读取PDF文件,将PDF中的指令读取到内存中;将指令中的内容转化为基本元素;对基本元素进行多轮聚合操作,得到聚合的对象;对聚合的对象计算嵌套关系,并解析聚合的对象的类型,确定类型为表格的对象;对类型为表格的对象进行一次表格解析,得到表格的所有单元格。本发明实现了高准确度的PDF表格提取和解析。
技术关键词
线段
解析方法
表格
判断算法
对象
矩形
去重算法
元素
深度优先搜索
指令
嵌套
共线
内存
关系
文本
三角形
端点
终点
坐标
系统为您推荐了相关专利信息
距离传感器
双目相机
生物识别设备
深度值
图像分割
多源异构数据分析
工业物联网
监管设备
时间段
对象