一种面向科学文献的复杂表格结构识别方法

AITNT
正文
推荐专利
一种面向科学文献的复杂表格结构识别方法
申请号:CN202411561525
申请日期:2024-11-04
公开号:CN119478998A
公开日期:2025-02-18
类型:发明专利
摘要
本发明公开了一种面向科学文献的复杂表格结构识别方法,该方法包括以下步骤:(1)首先对于科学文献中的表格区域的定位和裁剪;(2)对于裁剪后的表格图片输入到LGPMA网络模型中进行文本区域的特征提取;(3)局部分支通过纹理感知器获得文本区域的信息;(4)全局分支用来获取全局中文本块之间的距离等空间信息;(5)使用掩码重评分策略充分利用局部和全局的特征信息获取初步的文本块位置信息;(6)提出一种划分垂直分割线的方法来解决单元格之间粘连的情况。(7)按照文本块进行分组获取文本块在表格中的位置,并使用后置算法解决合并单元格问题并用html格式存储表格,该种方法有效的解决了复杂表格中合并单元格、单元格之间粘连的问题,使用基于网络模型的文本区域检测有效保留了单元格之间的邻接位置关系,使恢复表格结构更加准确。
技术关键词
结构识别方法 表格 合并单元格 文本区域检测 分支 金字塔 纹理结构 距离信息 网络 字符 图片 列表 格式 策略 对象 算法 标签 坐标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号