PDF的目录提取方法、PDF的目录提取设备及介质

正文

推荐专利

申请号：CN202511027670

申请日期：2025-07-24

公开号：CN120911417A

公开日期：2025-11-07

类型：发明专利

摘要

本申请公开了一种PDF的目录提取方法、PDF的目录提取设备及介质，涉及文档目录识别技术领域，公开了PDF的目录提取方法，包括：提取目录页中每一目录行的语义信息以及目录行结构；基于语义信息以及目录行结构，计算每一目录行的目录条；根据每一目录行对应的目录条进行目录聚合处理，得到目标目录行；基于目标目录行对应的目录行结构和语义信息，确定每一目标目录行的目录层级；根据深度学习模型提取每一目录目录行的目录实体，并输出目录页对应的结构化目录。通过语义信息和目录行结构计算实际的目录类别，以便基于准确的类别进行目录行聚合处理，并确定每一目录行的层级，确保了目录结构的逻辑一致性，以此提高目录提取的准确性和提取效率。

技术关键词

目录提取方法双流神经网络深度学习模型语义特征层级分类器融合特征主题字体实体图谱处理器可读存储介质文本存储器依序逻辑

系统为您推荐了相关专利信息

一种AI驱动的左心房CT三维分析及压痕区域自动评估方法与系统

自动评估方法三维医学图像数据左心房人工智能深度学习三角形面片

多模态数据驱动的配电网设备状态评估与优化方法

配电网设备状态同步算法动态时间规整算法强化学习算法设备状态评估

基于迁移学习和场景自适应分割的瓦楞纸缺陷检测方法

瓦楞纸表面缺陷检测方法深度学习模型场景计算机程序指令

一种基于大语言模型和异构图神经网络的编程成绩预测方法

大语言模型节点特征异构成绩预测方法知识点

一种基于牧草生长特征来提高牧草特定性状的智能施肥控制方法

牧草智能施肥生长状态图像像素拓扑特征

PDF的目录提取方法、PDF的目录提取设备及介质

站点导航

APP 下载