一种基于组合树结构的文档段落内容合并切分方法

AITNT
正文
推荐专利
一种基于组合树结构的文档段落内容合并切分方法
申请号:CN202510413265
申请日期:2025-04-03
公开号:CN119918505B
公开日期:2025-06-17
类型:发明专利
摘要
本申请设计了一种基于组合树结构的文档段落内容合并切分方法,包括:S1、利用文档解析工具获取文档内容;S2、逐行遍历文档内容,得到行文本内容列表secs;为每行内容分配标题层级,获取层级识别结果列表levels;S3、利用上述得到的行文本内容列表secs、层级识别结果列表levels和程序定义的处理深度depth,生成段落标题组织分组列表cks;S4、根据段落标题组织分组列表cks,将标题路径信息分组,构建段落标题信息组cks‑group;S5、将段落标题信息组cks‑group组织成内容结构树形式;S6、剪枝合并内容结构树,在更大的层级上合并文本内容;S7、处理剪枝后的内容结构树,生成当前文件的文档块内容。本申请能够高效地构建出语义丰富完整的待匹配文档块。
技术关键词
文本 列表 层级 二分查找算法 字典 组织 解析工具 节点 深度优先遍历 有效性 元素 分块 语义 嵌套 分支 定义
系统为您推荐了相关专利信息
1
基于对抗式联邦过滤器的医疗大模型隐私保护方法和装置
隐私过滤器 隐私保护方法 客户端 模拟器 样本
2
一种基于自然语言处理的电网数据智能检索与融合方法、系统
自然语言 数据融合算法 融合方法 关键词 表格
3
一种数据指标异动监测方法及装置
指标 层级 线性回归模型 监测方法 模型训练模块
4
一种基于混合低秩适配器的异构数据训练方法和系统
数据训练方法 适配器 神经网络模型 异构 路由器
5
咨询结果生成方法、装置及电子设备
多轮对话 中医药 生成方法 关键词 生成技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号