PDF文档内容处理方法、装置、设备、存储介质及程序产品

AITNT
正文
推荐专利
PDF文档内容处理方法、装置、设备、存储介质及程序产品
申请号:CN202511468366
申请日期:2025-10-15
公开号:CN120930593B
公开日期:2025-12-26
类型:发明专利
摘要
本申请公开了一种PDF文档内容处理方法、装置、设备、存储介质及程序产品,涉及文档结构化处理技术领域,方法包括:获取PDF文档;对PDF文档进行预处理,获得与PDF文档的各个页面所对应的待处理数据集;基于所有待处理数据集和PDF文档各页面的图像,确定PDF文档各页面的页面类型;基于各目录页对应的待处理数据集和目录页的图像,提取目录页中各标题数据的层级结构关系,构建目录树。基于目录页的标题数据和非目录页的标题数据之间的语义相似度和文本相似度,对目录页的标题数据和非目录页的标题数据进行匹配,根据匹配结果,将内容数据对应填充至目录树的各标题节点下,获得PDF文档的结构化表示结果。本申请提升了PDF文档的语义还原度和结构化质量。
技术关键词
目录 数据 页面 序列 层级 语义 计算机程序产品 图像 文本 列表 节点 处理器 关系 匹配模块 标记 可读存储介质 视觉 存储器 密度
系统为您推荐了相关专利信息
1
一种纺织生产能效的评估方法
纺织 综合评估体系 能效 指标 设备运行效率
2
融合意图识别与检索增强生成技术的问答处理方法、装置、设备、可读存储介质和程序产品
文本 大语言模型 索引机制 生成技术 意图识别
3
物联网在线监测电力装置的方法
在线监测电力 物联网在线监测 物联网传感器 长短期记忆网络 神经网络参数
4
基于多源域无监督自适应式的建筑空调系统故障诊断方法
建筑空调系统 故障诊断方法 相似性计算方法 特征提取器 故障诊断系统
5
一种HDI印刷电路板X射线检测方法及装置
HDI印刷电路板 X射线检测方法 HDI电路板 空间参考系 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号