摘要
本申请提供了一种PDF文档内容的提取方法及装置。所述方法包括:确定PDF文档是否为基于图像的PDF文档;在PDF文档为基于图像的PDF文档的情况下,将PDF文档转换为目标图像;根据识别得到目标图像内的目标对象对目标图像进行裁剪,得到仅包含目标对象的裁剪图像,对裁剪后的目标图像的目标对象对应的区域进行空白填充,得到填充目标图像,目标对象为:表格和嵌入图片中的至少一种;基于深度学习模型对裁剪图像进行解析处理,得到裁剪图像对应的结构化信息;基于光学字符识别技术对填充目标图像进行识别,得到填充目标图像对应的文本信息;对结构化信息和文本信息进行整合,得到PDF文档对应的页面内容信息。
技术关键词
页面内容
光学字符识别技术
对象
文本
深度学习模型
文档特征
动态内存管理
轻量级神经网络
表格
图片
分布特征
图像处理模块
转换方法
标识
坐标
格式
关系
系统为您推荐了相关专利信息
人工智能模型
意图
服务器
自然语言
计算机程序指令