摘要
本发明提供一种对于复杂长文本的大模型知识库构建和检索方法,包括多粒度分块,接收并预处理文本数据,基于变粒度分块策略多粒度层级拆分文本数据,每个粒度层级对应若干粒度一致的文本块;构建知识库,获取每个文本块的文本元数据,文本块与文本元数据向量化并生成文本块向量和文本元数据向量,依据文字信息少的文本元数据向量调用文字信息多的文本块向量。本发明能够多粒度层级划分文本块,有效保留文本数据内的上下文逻辑信息,提高知识库的检索准确性。
技术关键词
文本
知识库构建方法
检索方法
调用文字信息
主题语义
分块策略
数据
关键词
定义
层级
生成主题
范畴
标签
逻辑
水印
文章
系统为您推荐了相关专利信息
医疗文本分类方法
bert模型
模版
多头注意力机制
关系
文本
语音识别单元
交互方法
数据转换模块
韵律预测
数据高效检索方法
轻量型
健康状况评判
复杂度
知识蒸馏方法