一种用于RAG的多知识粒度的文本检索方法及装置

正文

推荐专利

申请号：CN202411466514

申请日期：2024-10-21

公开号：CN119415623B

公开日期：2025-12-05

类型：发明专利

摘要

本发明提供一种用于RAG的多知识粒度的文本检索方法及装置，将原始文本整理为JSON文件，并进行递归字符和语义切块处理，生成目标JSON文件存储至BM25数据库和向量数据库。当用户查询时，预处理生成关键词列表和查询嵌入向量；查找BM25数据库中的目标文本，计算与关键词的相关性得分以确定第一待选文本；根据查询嵌入向量确定第二待选文本；对所有第一待选文本和第二待选文本进行去重处理，利用排序模型确定最终推荐文本并输出。通过考虑不同搜索粒度的问题，采用BM25算法解决关键词粒度。结合句粒度和段粒度的语义检索策略，有效应对文本信息长度不一及不同检索目的的挑战，从而充分利用传统检索与语义检索的优势。

技术关键词

切块层级文本检索方法语义索引语句字符排序模型列表副本文本检索装置生成关键词聚类存储单元检索策略存储模块频率

一种用于RAG的多知识粒度的文本检索方法及装置

站点导航

APP 下载