摘要
本申请公开了一种文档标题层级提取方法、装置、设备及介质,涉及文档信息抽取领域,包括:以目标文档的大标题为根节点将目标文档中的每个文本段落确定为各节点,从各节点中确定出当前节点;利用基于目标文档构建的正则表达式列表获取与当前节点匹配的当前标题序数标识模式;基于预设层级匹配逻辑、当前标题序数标识模式以及上一标题序数标识模式确定当前节点的标题层级;其中,预设层级匹配逻辑包括不同层级的标题序数标识模式相同或不相同且相同层级的标题序数标识模式相同;基于各节点的标题层级向根节点追溯各节点的完整层级标题信息,获取目标文档的完整层级结构。低成本且合理的切分文档内容,同时保持逻辑结构和语义信息的完整性和清晰度。
技术关键词
层级
节点
标识
列表
文本段落
逻辑
存储计算机程序
模式匹配
可读存储介质
索引
模块
处理器
低成本
电子设备
语义
存储器
系统为您推荐了相关专利信息
原始图像数据
图像分类方法
卷积神经网络模型
原型
语义特征