一种非结构化PDF文档智能解析方法、装置、设备及介质

AITNT
正文
推荐专利
一种非结构化PDF文档智能解析方法、装置、设备及介质
申请号:CN202511248022
申请日期:2025-09-03
公开号:CN120747992B
公开日期:2025-11-14
类型:发明专利
摘要
本申请公开了一种非结构化PDF文档智能解析方法、装置、设备及介质,涉及文档解析领域,该方法包括:获取待解析的PDF文档,并解析PDF文档中的页面元素,生成文档元数据字典;若PDF文档中未包含可提取文本,则将PDF文档转换为图像并进行光学字符识别,生成第一结构化数据;若PDF文档中包含可提取文本,则判断PDF文档中是否包含表格;若PDF文档中不包含表格,则采用PDFMiner提取文本,生成第二结构化数据;若PDF文档中包含表格,则根据文档元数据字典对PDF文档进行多模态特征提取及特征融合,得到多模态融合特征,并根据多模态融合特征生成第三结构化数据;本申请提高了PDF文档的解析精度及效率。
技术关键词
智能解析方法 预处理图像数据 文本 多模态 融合特征 字典 语义向量 生成文档 表格 光学字符识别 深度学习算法 坐标 元素 视觉方法 页面 交叉注意力机制 视觉特征提取
系统为您推荐了相关专利信息
1
可行驶区域的检测方法、系统、设备及可读存储介质
融合特征 非结构化道路 多任务 模态特征 文本
2
一种基于多信息源的信息处理方法及系统
信息处理方法 异构信息网络 多模态特征融合 标签类别 音频特征
3
一种基于人工智能的旅游攻略自动生成方法
自动生成方法 兴趣特征向量 贝叶斯个性化排序 多模态 智能设备
4
虚拟对象交互方法、装置、相关设备和计算机程序产品
虚拟对象 文本 计算机程序指令 客户端 交互方法
5
基于深度学习的相变储能热库异常检测系统及方法
编码向量 时序 相变储能 异常检测方法 异常检测系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号