摘要
本发明涉及计算机技术领域,尤其涉及一种版式文件结构化处理方法。该方法包括导入待处理版式文件;形成实体关系组;形成对应的表结构进行储存,将半结构化数据转化为结构化数据;检测修正。本发明通过对导入的各种格式的版式文件进行解析,以识别版式文件中的半结构化数据,以将半结构化数据转换为结构化数据,通过对半结构化数据进行文本提取,以提取关键信息,通过将识别的实体与拆分的图像片进行匹配,找出与实体相关联的图像片,将匹配的图像片与文本数据段以及对应的实体关系存储为图结构,通过图结构清晰地表示文本数据段、实体、实体关系和关联的图像片之间的关系,方便进一步的分析和查询,提高数据的管理和分析效率。
技术关键词
实体
图像
语句
像素点
轮廓识别
数据
关系
文本
语义
关键词
标识符
格式
系统为您推荐了相关专利信息
监控杆
智能控制器
图像识别模块
房屋建筑
压力感应板
信息处理单元
融合特征
频谱特征
分支
图像分割模型