摘要
本申请公开了一种长文本解析方法、装置、存储介质以及终端。识别待解析长文本中的至少一个标题,基于各标题生成待解析长文本的目录信息;根据各标题以及向量模型的输入长度要求将待解析长文本划分为多个文本段落;从目录信息中确定各文本段落对应的目标上级目录,分别整合各文本段落以及各文本段落对应的目标上级目录;将整合后的各文本段落输入向量模型,得到向量模型对各文本段落输出的向量特征。由于通过长文本的标题将整个文档拆分为文本段落,对文本段落实现了更合理的划分。继续根据其上级目录中的包含的上下文信息对长文本信息进行整合,让文本段落的语义信息更加丰富,在此基础上就可以让模型对其进行更准确的理解和处理。
技术关键词
文本段落
文本解析方法
目录
计算机存储介质
树形数据结构
解析装置
处理器
语义
终端
识别模块
索引
关系
存储器
节点
指令
程序