一种基于深度学习和版面分析的PDF提取方法和系统

正文

推荐专利

申请号：CN202411443154

申请日期：2024-10-16

公开号：CN119598971A

公开日期：2025-03-11

类型：发明专利

摘要

本发明涉及一种基于深度学习和版面分析的PDF提取方法和系统，包括：获取PDF文件，对于扫描版文件和文字版文件分别通过OCR技术和深度学习模型进行元素识别，元素包括文本、图片、表格和公式；根据识别出的元素，将PDF文件的页面划分为多个逻辑块，并确定层级关系和顺序；对识别出的元素进行无实质帮助元素的删除，并提取文档内容；根据文档内容进行页面布局分析，对各个逻辑块进行重新排序和组织，得到版面布局；对文档内容进行分类和解析，然后分类存储；根据用户需求，将分类存储的文档内容以对应的版面布局进行拼接，生成目标格式的文档。与现有技术相比，本发明实现了高效准确的PDF提取，同时保留了原文档的重要结构和内容。

技术关键词

扫描版文件逻辑元素布局深度学习模型表格识别PDF文件链接技术页面层级图片格式化文本关系图像试卷坐标水印组织

系统为您推荐了相关专利信息

基于改进Bi-lstm网络与注意力机制的智能电表寿命预测方法

智能电表寿命预测寿命预测模型历史运行数据多头注意力机制对抗性

车辆、电机控制器低压上电系统、控制器及故障检测方法

上电系统电源管理芯片电机控制器电容主控电路

一种城市水体污染治理的视觉识别系统

城市水体污染视觉识别系统中央处理系统环境传感器图像采集模块

一种基于AI的需求评审系统及方法

评审系统评审方法功能模块系统响应速度企业局域网

一种驱动系统的控制方法、装置、电子设备、芯片及车辆

控制器开关电流值模式指令电子设备

一种基于深度学习和版面分析的PDF提取方法和系统

站点导航

APP 下载