摘要
本发明涉及一种基于深度学习和版面分析的PDF提取方法和系统,包括:获取PDF文件,对于扫描版文件和文字版文件分别通过OCR技术和深度学习模型进行元素识别,元素包括文本、图片、表格和公式;根据识别出的元素,将PDF文件的页面划分为多个逻辑块,并确定层级关系和顺序;对识别出的元素进行无实质帮助元素的删除,并提取文档内容;根据文档内容进行页面布局分析,对各个逻辑块进行重新排序和组织,得到版面布局;对文档内容进行分类和解析,然后分类存储;根据用户需求,将分类存储的文档内容以对应的版面布局进行拼接,生成目标格式的文档。与现有技术相比,本发明实现了高效准确的PDF提取,同时保留了原文档的重要结构和内容。
技术关键词
扫描版文件
逻辑
元素
布局
深度学习模型
表格
识别PDF文件
链接技术
页面
层级
图片
格式化
文本
关系
图像
试卷
坐标
水印
组织
系统为您推荐了相关专利信息
智能电表寿命预测
寿命预测模型
历史运行数据
多头注意力机制
对抗性
上电系统
电源管理芯片
电机控制器
电容
主控电路
城市水体污染
视觉识别系统
中央处理系统
环境传感器
图像采集模块
评审系统
评审方法
功能模块
系统响应速度
企业局域网