一种用于RAG的多知识粒度的文本检索方法及装置

AITNT
正文
推荐专利
一种用于RAG的多知识粒度的文本检索方法及装置
申请号:CN202411466514
申请日期:2024-10-21
公开号:CN119415623B
公开日期:2025-12-05
类型:发明专利
摘要
本发明提供一种用于RAG的多知识粒度的文本检索方法及装置,将原始文本整理为JSON文件,并进行递归字符和语义切块处理,生成目标JSON文件存储至BM25数据库和向量数据库。当用户查询时,预处理生成关键词列表和查询嵌入向量;查找BM25数据库中的目标文本,计算与关键词的相关性得分以确定第一待选文本;根据查询嵌入向量确定第二待选文本;对所有第一待选文本和第二待选文本进行去重处理,利用排序模型确定最终推荐文本并输出。通过考虑不同搜索粒度的问题,采用BM25算法解决关键词粒度。结合句粒度和段粒度的语义检索策略,有效应对文本信息长度不一及不同检索目的的挑战,从而充分利用传统检索与语义检索的优势。
技术关键词
切块 层级 文本检索方法 语义 索引 语句 字符 排序模型 列表 副本 文本检索装置 生成关键词 聚类 存储单元 检索策略 存储模块 频率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号