一种利用文本扩展训练来提升向量数据库召回率的方法

正文

推荐专利

申请号：CN202411741759

申请日期：2024-11-29

公开号：CN119396981A

公开日期：2025-02-07

类型：发明专利

摘要

本发明公开了一种利用文本扩展训练来提升向量数据库召回率的方法，包括以下步骤：S1.问题生成与扩展；S2.相似度评估及问题筛选；S3.问题‑答案链接与嵌入；S4.向量数据库的构建和优化；S5.实时检索。本发明在预处理阶段，不仅在扩展原始问题时能够生成多个类似问题，而且引入了文本近邻算法审查机制来评估生成的每个问题的相似度。仅有通过相似度评估标准的问题，能够与原始答案链接，并被嵌入到向量数据库中。查询时，用户的问题将直接与优化存储的数据匹配，进而减少实时查询阶段的负载，提高系统的整体效率。

技术关键词

答案文本问答系统近邻算法 NLP技术深度学习算法检索算法切割工具分块阶段列表机制模板数值数据

一种利用文本扩展训练来提升向量数据库召回率的方法

站点导航

APP 下载