PDF文档内容的提取方法及装置

正文

推荐专利

PDF文档内容的提取方法及装置

申请号：CN202510967509

申请日期：2025-07-14

公开号：CN120997854A

公开日期：2025-11-21

类型：发明专利

摘要

本申请提供了一种PDF文档内容的提取方法及装置。所述方法包括：确定PDF文档是否为基于图像的PDF文档；在PDF文档为基于图像的PDF文档的情况下，将PDF文档转换为目标图像；根据识别得到目标图像内的目标对象对目标图像进行裁剪，得到仅包含目标对象的裁剪图像，对裁剪后的目标图像的目标对象对应的区域进行空白填充，得到填充目标图像，目标对象为：表格和嵌入图片中的至少一种；基于深度学习模型对裁剪图像进行解析处理，得到裁剪图像对应的结构化信息；基于光学字符识别技术对填充目标图像进行识别，得到填充目标图像对应的文本信息；对结构化信息和文本信息进行整合，得到PDF文档对应的页面内容信息。

技术关键词

页面内容光学字符识别技术对象文本深度学习模型文档特征动态内存管理轻量级神经网络表格图片分布特征图像处理模块转换方法标识坐标格式关系

系统为您推荐了相关专利信息

面向数学推理的可视化思维操作系统及数学推理方法

数学文本大语言模型推理方法操作系统

剪辑视频的方法、相关装置及计算机程序产品

视频标签计算机程序产品对象语音

基于人工智能模型辅助服务器BMC运维方法及装置

人工智能模型意图服务器自然语言计算机程序指令

一种样品检测系统和方法

样品检测系统报告项目设备管理模块模版

一种大语言模型推理方法、装置、设备、介质和产品

大语言模型序列推理方法机制指令

PDF文档内容的提取方法及装置

站点导航

APP 下载