一种基于深度学习和版面分析的PDF提取方法和系统

AITNT
正文
推荐专利
一种基于深度学习和版面分析的PDF提取方法和系统
申请号:CN202411443154
申请日期:2024-10-16
公开号:CN119598971A
公开日期:2025-03-11
类型:发明专利
摘要
本发明涉及一种基于深度学习和版面分析的PDF提取方法和系统,包括:获取PDF文件,对于扫描版文件和文字版文件分别通过OCR技术和深度学习模型进行元素识别,元素包括文本、图片、表格和公式;根据识别出的元素,将PDF文件的页面划分为多个逻辑块,并确定层级关系和顺序;对识别出的元素进行无实质帮助元素的删除,并提取文档内容;根据文档内容进行页面布局分析,对各个逻辑块进行重新排序和组织,得到版面布局;对文档内容进行分类和解析,然后分类存储;根据用户需求,将分类存储的文档内容以对应的版面布局进行拼接,生成目标格式的文档。与现有技术相比,本发明实现了高效准确的PDF提取,同时保留了原文档的重要结构和内容。
技术关键词
扫描版文件 逻辑 元素 布局 深度学习模型 表格 识别PDF文件 链接技术 页面 层级 图片 格式化 文本 关系 图像 试卷 坐标 水印 组织
系统为您推荐了相关专利信息
1
基于改进Bi-lstm网络与注意力机制的智能电表寿命预测方法
智能电表寿命预测 寿命预测模型 历史运行数据 多头注意力机制 对抗性
2
车辆、电机控制器低压上电系统、控制器及故障检测方法
上电系统 电源管理芯片 电机控制器 电容 主控电路
3
一种城市水体污染治理的视觉识别系统
城市水体污染 视觉识别系统 中央处理系统 环境传感器 图像采集模块
4
一种基于AI的需求评审系统及方法
评审系统 评审方法 功能模块 系统响应速度 企业局域网
5
一种驱动系统的控制方法、装置、电子设备、芯片及车辆
控制器开关 电流值 模式 指令 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号