摘要
本发明公开了一种面向多维表格的复杂表头一维化自动处理方法及系统,包括:(1)对目标文献中的表格数据进行提取,形成集合T;(2)对于T中任一表格ti,获取所有表头单元格的基本信息,存入LC;(3)计算表头的层级深度Li,如果Li>=2,则执行步骤(4);否则,执行步骤(6);(4)将LC中每个表头单元格作为一个节点,从第Li层开始,逐步向上回溯构建表头树结构,并从根节点开始逐层合并所有节点的文本内容,将合并后文本内容作最底层节点所在列的一维表头;(5)去除一维表头中冗余信息生成规范化一维表格;(6)生成规范化一维表格;(7)循环执行步骤(2)‑(6),直至完成所有表格数据的处理。本发明效率高、准确度高。
技术关键词
表头
表格
节点
文本
预训练模型
深度优先遍历
层级
模块
冗余
数据
合并单元
数值
语义
标记
算法