一种提取跨页表格数据的方法和装置

AITNT
正文
推荐专利
一种提取跨页表格数据的方法和装置
申请号:CN202510737055
申请日期:2025-06-04
公开号:CN120706387A
公开日期:2025-09-26
类型:发明专利
摘要
本申请实施例公开了一种提取跨页表格数据的方法和装置,该方法包括以下步骤:解析OFD中的页面对象,提取文本信息以及线段信息;将提取的线段分类为水平线段组和垂直线段组,合并第一页和第二页的线段数据和文本数据,形成统一的线段数据组和文本数据组;从合并的线段数据组中识别表格结构,通过检测水平线段与垂直线段的相交,形成交点网格,并基于相邻交点构建矩形单元格,形成单元格组;通过判断每个文本字符的矩形边界是否位于单元格边界内,提取每个单元格关联的文本。本申请实施例通过矢量化识别表格,对跨页表格内的文字进行提取,能够处理复杂的页面布局、多变的表格结构以及潜在的数据连续性问题,进而提高提取结果的一致性和准确性。
技术关键词
线段 文本 表格 对象 数据 字符 矩形 页面 网格 透明度 二维码 对齐模块 坐标系 过滤模块 识别模块 语义 连续性 颜色
系统为您推荐了相关专利信息
1
流量录制方法、装置、电子设备及计算机可读存储介质
HTTP请求 录制业务 身份 录制方法 计算机可执行指令
2
一种基于大数据的用户个性化内容推送系统及推广方法
内容推广方法 大数据 内容推送系统 兴趣 生成个性化推荐
3
一种智能变电站监测方法
智能变电站 监测方法 变电站故障诊断技术 故障诊断模型 频率
4
一种基于深度学习的网约车司机人脸目标检测方法和装置
司机 特征工程 照片 计算机可执行指令 数据
5
一种无人帆船的虚拟锚泊方法
无人帆船 模糊控制算法 风速风向数据 锚泊方法 隶属度函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号