一种非结构化PDF文档智能解析方法、装置、设备及介质

正文

推荐专利

申请号：CN202511248022

申请日期：2025-09-03

公开号：CN120747992B

公开日期：2025-11-14

类型：发明专利

摘要

本申请公开了一种非结构化PDF文档智能解析方法、装置、设备及介质，涉及文档解析领域，该方法包括：获取待解析的PDF文档，并解析PDF文档中的页面元素，生成文档元数据字典；若PDF文档中未包含可提取文本，则将PDF文档转换为图像并进行光学字符识别，生成第一结构化数据；若PDF文档中包含可提取文本，则判断PDF文档中是否包含表格；若PDF文档中不包含表格，则采用PDFMiner提取文本，生成第二结构化数据；若PDF文档中包含表格，则根据文档元数据字典对PDF文档进行多模态特征提取及特征融合，得到多模态融合特征，并根据多模态融合特征生成第三结构化数据；本申请提高了PDF文档的解析精度及效率。

技术关键词

智能解析方法预处理图像数据文本多模态融合特征字典语义向量生成文档表格光学字符识别深度学习算法坐标元素视觉方法页面交叉注意力机制视觉特征提取

系统为您推荐了相关专利信息

可行驶区域的检测方法、系统、设备及可读存储介质

融合特征非结构化道路多任务模态特征文本

一种基于多信息源的信息处理方法及系统

信息处理方法异构信息网络多模态特征融合标签类别音频特征

一种基于人工智能的旅游攻略自动生成方法

自动生成方法兴趣特征向量贝叶斯个性化排序多模态智能设备

虚拟对象交互方法、装置、相关设备和计算机程序产品

虚拟对象文本计算机程序指令客户端交互方法

基于深度学习的相变储能热库异常检测系统及方法

编码向量时序相变储能异常检测方法异常检测系统

一种非结构化PDF文档智能解析方法、装置、设备及介质

站点导航

APP 下载