摘要
本申请公开了一种非结构化PDF文档智能解析方法、装置、设备及介质,涉及文档解析领域,该方法包括:获取待解析的PDF文档,并解析PDF文档中的页面元素,生成文档元数据字典;若PDF文档中未包含可提取文本,则将PDF文档转换为图像并进行光学字符识别,生成第一结构化数据;若PDF文档中包含可提取文本,则判断PDF文档中是否包含表格;若PDF文档中不包含表格,则采用PDFMiner提取文本,生成第二结构化数据;若PDF文档中包含表格,则根据文档元数据字典对PDF文档进行多模态特征提取及特征融合,得到多模态融合特征,并根据多模态融合特征生成第三结构化数据;本申请提高了PDF文档的解析精度及效率。
技术关键词
智能解析方法
预处理图像数据
文本
多模态
融合特征
字典
语义向量
生成文档
表格
光学字符识别
深度学习算法
坐标
元素
视觉方法
页面
交叉注意力机制
视觉特征提取
系统为您推荐了相关专利信息
信息处理方法
异构信息网络
多模态特征融合
标签类别
音频特征
自动生成方法
兴趣特征向量
贝叶斯个性化排序
多模态
智能设备
编码向量
时序
相变储能
异常检测方法
异常检测系统