摘要
本发明提供一种不规则表格结构转换为JSON文件的方法,包括获取不规则划分的原始表格文件,将原始表格文件中每一个子单元格均提取为独立节点,形成节点集合;基于节点的空间位置信息,遍历各节点存在满足预定邻接关系的邻居节点,以构建出邻接图结构;根据节点的文本内容及对应类型,计算邻接两节点之间的文本余弦相似度、文本类型匹配度评分和上下文语义评分,对邻接图结构中无语义关联的连接边进行删除;在邻接图结构中对连接边数目最小的方向进行删除并更新;根据更新后的邻接图结构中节点间保留的连接关系,解析并组织表格语义结构来生成嵌套型JSON文件。实施本发明,可高效处理复杂表格结构,提升结构化提取准确率与JSON表达的语义一致性。
技术关键词
节点
表格
文本
邻居
语义结构
关系
线性变换矩阵
矩形
注意力机制
嵌套
存储器
处理器
坐标
组织
字符
系统为您推荐了相关专利信息
教育系统
生成视频序列
协同注意力
动态教学
渲染技术
大语言模型
问答系统构建方法
审核规则
数据
模块
SPICE模型
金属互连
建模方法
金属线
电容结构