文档标题层级提取方法、装置、设备及介质

AITNT
正文
推荐专利
文档标题层级提取方法、装置、设备及介质
申请号:CN202510020526
申请日期:2025-01-07
公开号:CN119808770A
公开日期:2025-04-11
类型:发明专利
摘要
本申请公开了一种文档标题层级提取方法、装置、设备及介质,涉及文档信息抽取领域,包括:以目标文档的大标题为根节点将目标文档中的每个文本段落确定为各节点,从各节点中确定出当前节点;利用基于目标文档构建的正则表达式列表获取与当前节点匹配的当前标题序数标识模式;基于预设层级匹配逻辑、当前标题序数标识模式以及上一标题序数标识模式确定当前节点的标题层级;其中,预设层级匹配逻辑包括不同层级的标题序数标识模式相同或不相同且相同层级的标题序数标识模式相同;基于各节点的标题层级向根节点追溯各节点的完整层级标题信息,获取目标文档的完整层级结构。低成本且合理的切分文档内容,同时保持逻辑结构和语义信息的完整性和清晰度。
技术关键词
层级 节点 标识 列表 文本段落 逻辑 存储计算机程序 模式匹配 可读存储介质 索引 模块 处理器 低成本 电子设备 语义 存储器
系统为您推荐了相关专利信息
1
基于对比学习和层级聚合的药物推荐方法及系统
药物推荐方法 电子病历数据 编码模块 层级 手术
2
弱网环境下的工程边端数据分片重组与业务断点续传方法
分片 业务处理结果 弱网环境 断点续传方法 标识
3
一种基于选择性原型损失函数的多标签图像分类方法
原始图像数据 图像分类方法 卷积神经网络模型 原型 语义特征
4
工业计算机工控系统的安全评估方法及系统
工控系统 工业计算机 工业控制系统 图谱 策略
5
文档大纲生成方法及装置
文本行 合规性 层级 语义向量 标识
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号