摘要
本申请提供一种多元文档解析方法及系统,涉及计算机信息处理领域,解决了无法统一解析与集成各类型文档的格式,导致信息提取效率低、准确率不高的技术问题。该方法包括:识别待处理文档的类型;文档类型包括表格类、文本类和演示类;文本类包括Word格式和PDF格式;根据待处理文档的类型调用对应的解析函数,对待处理文档进行解析得到解析结果,解析结果包括提取的待处理文档的结构信息和内容数据;将解析结果转化为标准JSON格式并输出。本申请用于文档解析过程中。
技术关键词
文档解析方法
格式
YOLO模型
元素
图片
表格
工作表
文本
图像
媒体
合并单元格
识别页面
识别模块
索引
数据
解析系统
变量
语义标签
坐标
系统为您推荐了相关专利信息
数据处理系统
人力资源数据
集成层
数据存储
数据同步
低通滤波器
多相滤波器
信道化接收机
能量检测方法
信道化结构
数据格式
物联网数据处理技术
Modbus通信协议
物联网异构设备
物理设备