摘要
本申请提供了基于图像识别的PDF文档结构化加载方法,涉及图像数据处理技术领域,包括:基于PDF文档的边距信息设置文档图像的预定提取尺度;以预定提取尺度中的预定粗尺度获取PDF文档的初始图像;引入预处理策略对初始图像进行处理,得到目标图像;多维收集目标图像的目标特征参数集,并激活加载引擎分类器对目标特征参数集进行分析,确定目标引擎类别;通过目标引擎类别对初始图像进行结构化加载。本申请解决了现有技术由于无法根据PDF文档中图像的语义特征和布局形式自适应选择加载引擎,导致图像型PDF结构还原效果差的技术问题,达到了提升复杂PDF文档结构重建准确性与数据加载质量的技术效果。
技术关键词
分类器
特征值
图像数据处理技术
支持向量机
颜色
图片
分层
策略
离散余弦
布局形式
纹理特征
语义特征
邻域
标识
表格
参数
文本
系统为您推荐了相关专利信息
三维姿态识别方法
融合算法
多任务深度学习
相机图像传感器
图像像素
图像情感分析方法
恐惧情感
融合深度学习模型
负面情绪检测
融合多维特征
解码模型
听觉
特征提取器
脑电信号处理
解码方法
风电功率预测模型
风电功率预测方法
风电功率预测装置
数值天气预报数据
样本