一种对于复杂长文本的大模型知识库构建和检索方法

正文

推荐专利

申请号：CN202510141033

申请日期：2025-02-08

公开号：CN120046710A

公开日期：2025-05-27

类型：发明专利

摘要

本发明提供一种对于复杂长文本的大模型知识库构建和检索方法，包括多粒度分块，接收并预处理文本数据，基于变粒度分块策略多粒度层级拆分文本数据，每个粒度层级对应若干粒度一致的文本块；构建知识库，获取每个文本块的文本元数据，文本块与文本元数据向量化并生成文本块向量和文本元数据向量，依据文字信息少的文本元数据向量调用文字信息多的文本块向量。本发明能够多粒度层级划分文本块，有效保留文本数据内的上下文逻辑信息，提高知识库的检索准确性。

技术关键词

文本知识库构建方法检索方法调用文字信息主题语义分块策略数据关键词定义层级生成主题范畴标签逻辑水印文章

系统为您推荐了相关专利信息

基于大语言模型的医学影像报告生成方法及系统

大语言模型报告生成方法影像文本列表

一种基于提示学习中关系抽取的医疗文本分类方法

医疗文本分类方法 bert模型模版多头注意力机制关系

基于UNITER-Yolov5模型的多模态交通感知方法

图像卷积特征交通文本语义特征数据

一种3D数字人的实时交互方法及装置

文本语音识别单元交互方法数据转换模块韵律预测

一种基于神经网络的数据高效检索方法

数据高效检索方法轻量型健康状况评判复杂度知识蒸馏方法

一种对于复杂长文本的大模型知识库构建和检索方法

站点导航

APP 下载