摘要
本发明公开了一种带合并单元格的表格内容提取与存储方式,S1、利用正则表达式匹配方式提取规范表格中的表格标题与表格内容;S2、定义单元格属性;S3、依据表格标题区域生成行标题和列标题的树形结构;S4、将各节点间的父子关系标记为父节点与子节点的连接关系;将各节点间的父子关系标记为父节点与子节点的连接关系;S5、根据其位置对应的行标题节点与列标题节点逐一生成连接行标题节点与列标题节点的边连接;S6、将行标题树形结构的叶子节点列表与列标题树形结构的叶子节点列表分别作为最终图形结构的行列维度;S7、将生成的图形结构存储至数据存储系统中。本发明可以通过对标准规范中表格的抽取,将表格中的数据更有价值地利用起来。
技术关键词
树形结构
合并单元格
节点
表格
监督学习模型
关系
标识
数据存储系统
列表
层级
标记
定义
位置识别
存储结构
数值
语义
代表
分层
元素