摘要
本申请实施例公开了一种提取跨页表格数据的方法和装置,该方法包括以下步骤:解析OFD中的页面对象,提取文本信息以及线段信息;将提取的线段分类为水平线段组和垂直线段组,合并第一页和第二页的线段数据和文本数据,形成统一的线段数据组和文本数据组;从合并的线段数据组中识别表格结构,通过检测水平线段与垂直线段的相交,形成交点网格,并基于相邻交点构建矩形单元格,形成单元格组;通过判断每个文本字符的矩形边界是否位于单元格边界内,提取每个单元格关联的文本。本申请实施例通过矢量化识别表格,对跨页表格内的文字进行提取,能够处理复杂的页面布局、多变的表格结构以及潜在的数据连续性问题,进而提高提取结果的一致性和准确性。
技术关键词
线段
文本
表格
对象
数据
字符
矩形
页面
网格
透明度
二维码
对齐模块
坐标系
过滤模块
识别模块
语义
连续性
颜色
系统为您推荐了相关专利信息
HTTP请求
录制业务
身份
录制方法
计算机可执行指令
内容推广方法
大数据
内容推送系统
兴趣
生成个性化推荐
智能变电站
监测方法
变电站故障诊断技术
故障诊断模型
频率
无人帆船
模糊控制算法
风速风向数据
锚泊方法
隶属度函数