摘要
本申请提供一种多元文档解析方法及系统,涉及计算机信息处理领域,解决了无法统一解析与集成各类型文档的格式,导致信息提取效率低、准确率不高的技术问题。该方法包括:识别待处理文档的类型;文档类型包括表格类、文本类和演示类;文本类包括Word格式和PDF格式;根据待处理文档的类型调用对应的解析函数,对待处理文档进行解析得到解析结果,解析结果包括提取的待处理文档的结构信息和内容数据;将解析结果转化为标准JSON格式并输出。本申请用于文档解析过程中。
技术关键词
文档解析方法
格式
YOLO模型
元素
图片
表格
工作表
文本
图像
媒体
合并单元格
识别页面
识别模块
索引
数据
解析系统
变量
语义标签
坐标