摘要
本发明涉及数据处理技术领域,公开了一种基于结构理解的文档解析向量化方法及装置,方法包括:获取待解析文档;基于待解析文档的文档格式采用目标解析工具和/或目标解析参数解析待解析文档,得到解析结果;将解析结果整理为至少一组JSON数据体;将JSON数据体转换为向量化数据;其中,待解析文档包括至少两种文档格式,不同的文档格式对应不同的目标解析工具和/或目标解析参数,文档格式至少包括DOC和PDF。基于上述方案,能够将所有的解析结果统一转换为统一的JSON数据体,再转换为向量化数据,便于后续的数据处理、分析和机器学习应用,并且使得得到的解析结果最优。
技术关键词
解析工具
数据体
格式
文本
表格
参数
定位算法
语义分割算法
图片
图像分割算法
公式解析
布局特征
数据处理技术
识别算法
模块
连续性
系统为您推荐了相关专利信息
机器学习算法分析
电子表格软件
报表
应用程序编程接口
数据处理技术
自动化测试脚本
事件监听器
事件驱动机制
测试方法
生成测试报告