摘要
本发明涉及一种基于标题识别与分层摘要的结构化文本解析方法及系统,通过接收文本,获得训练语言模型的样本数据。向量数据库可以对存储的文本的数据进行向量维度调整。向量数据库以向量为基本存储单元,通过嵌入技术将非结构化数据转换为高维向量。调用标题文本数据集的数据存储类型信息,可以确定与文本的存储方式匹配的标题文本数据集的数据存储类型。利用语义分割脚本,获得每一个文本的样本数据的结构类型。将文档按照识别出的章节标题进行切分,每一章节下再细分为多个逻辑段落,形成结构化的文本分块单元。与目标的模型匹配的多层级摘要生成模型可以充分挖掘文档内部的层次信息和语义关联。这提高了智能问答系统在解析结构化文本的效果。
技术关键词
文本解析方法
文件夹
层级
模板
索引
数据存储
建立映射关系
样本
脚本
分层
节点
摘要算法
语义特征
文本解析系统
语义标签
系统为您推荐了相关专利信息
分布式空间
算法并行化
负载均衡方法
划分算法
空间编码方法