摘要
本申请设计了一种基于组合树结构的文档段落内容合并切分方法,包括:S1、利用文档解析工具获取文档内容;S2、逐行遍历文档内容,得到行文本内容列表secs;为每行内容分配标题层级,获取层级识别结果列表levels;S3、利用上述得到的行文本内容列表secs、层级识别结果列表levels和程序定义的处理深度depth,生成段落标题组织分组列表cks;S4、根据段落标题组织分组列表cks,将标题路径信息分组,构建段落标题信息组cks‑group;S5、将段落标题信息组cks‑group组织成内容结构树形式;S6、剪枝合并内容结构树,在更大的层级上合并文本内容;S7、处理剪枝后的内容结构树,生成当前文件的文档块内容。本申请能够高效地构建出语义丰富完整的待匹配文档块。
技术关键词
文本
列表
层级
二分查找算法
字典
组织
解析工具
节点
深度优先遍历
有效性
元素
分块
语义
嵌套
分支
定义