摘要
本申请公开了一种PDF文档内容处理方法、装置、设备、存储介质及程序产品,涉及文档结构化处理技术领域,方法包括:获取PDF文档;对PDF文档进行预处理,获得与PDF文档的各个页面所对应的待处理数据集;基于所有待处理数据集和PDF文档各页面的图像,确定PDF文档各页面的页面类型;基于各目录页对应的待处理数据集和目录页的图像,提取目录页中各标题数据的层级结构关系,构建目录树。基于目录页的标题数据和非目录页的标题数据之间的语义相似度和文本相似度,对目录页的标题数据和非目录页的标题数据进行匹配,根据匹配结果,将内容数据对应填充至目录树的各标题节点下,获得PDF文档的结构化表示结果。本申请提升了PDF文档的语义还原度和结构化质量。
技术关键词
目录
数据
页面
序列
层级
语义
计算机程序产品
图像
文本
列表
节点
处理器
关系
匹配模块
标记
可读存储介质
视觉
存储器
密度
系统为您推荐了相关专利信息
在线监测电力
物联网在线监测
物联网传感器
长短期记忆网络
神经网络参数
建筑空调系统
故障诊断方法
相似性计算方法
特征提取器
故障诊断系统
HDI印刷电路板
X射线检测方法
HDI电路板
空间参考系
序列