摘要
本申请公开了一种PDF的目录提取方法、PDF的目录提取设备及介质,涉及文档目录识别技术领域,公开了PDF的目录提取方法,包括:提取目录页中每一目录行的语义信息以及目录行结构;基于语义信息以及目录行结构,计算每一目录行的目录条;根据每一目录行对应的目录条进行目录聚合处理,得到目标目录行;基于目标目录行对应的目录行结构和语义信息,确定每一目标目录行的目录层级;根据深度学习模型提取每一目录目录行的目录实体,并输出目录页对应的结构化目录。通过语义信息和目录行结构计算实际的目录类别,以便基于准确的类别进行目录行聚合处理,并确定每一目录行的层级,确保了目录结构的逻辑一致性,以此提高目录提取的准确性和提取效率。
技术关键词
目录提取方法
双流神经网络
深度学习模型
语义特征
层级
分类器
融合特征
主题
字体
实体
图谱
处理器
可读存储介质
文本
存储器
依序
逻辑
系统为您推荐了相关专利信息
自动评估方法
三维医学图像数据
左心房
人工智能深度学习
三角形面片
配电网设备状态
同步算法
动态时间规整算法
强化学习算法
设备状态评估
瓦楞纸表面
缺陷检测方法
深度学习模型
场景
计算机程序指令