PDF文档内容的提取方法及装置

AITNT
正文
推荐专利
PDF文档内容的提取方法及装置
申请号:CN202510967509
申请日期:2025-07-14
公开号:CN120997854A
公开日期:2025-11-21
类型:发明专利
摘要
本申请提供了一种PDF文档内容的提取方法及装置。所述方法包括:确定PDF文档是否为基于图像的PDF文档;在PDF文档为基于图像的PDF文档的情况下,将PDF文档转换为目标图像;根据识别得到目标图像内的目标对象对目标图像进行裁剪,得到仅包含目标对象的裁剪图像,对裁剪后的目标图像的目标对象对应的区域进行空白填充,得到填充目标图像,目标对象为:表格和嵌入图片中的至少一种;基于深度学习模型对裁剪图像进行解析处理,得到裁剪图像对应的结构化信息;基于光学字符识别技术对填充目标图像进行识别,得到填充目标图像对应的文本信息;对结构化信息和文本信息进行整合,得到PDF文档对应的页面内容信息。
技术关键词
页面内容 光学字符识别技术 对象 文本 深度学习模型 文档特征 动态内存管理 轻量级神经网络 表格 图片 分布特征 图像处理模块 转换方法 标识 坐标 格式 关系
系统为您推荐了相关专利信息
1
面向数学推理的可视化思维操作系统及数学推理方法
数学 文本 大语言模型 推理方法 操作系统
2
剪辑视频的方法、相关装置及计算机程序产品
视频 标签 计算机程序产品 对象 语音
3
基于人工智能模型辅助服务器BMC运维方法及装置
人工智能模型 意图 服务器 自然语言 计算机程序指令
4
一种样品检测系统和方法
样品检测系统 报告 项目 设备管理模块 模版
5
一种大语言模型推理方法、装置、设备、介质和产品
大语言模型 序列 推理方法 机制 指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号