摘要
本发明公开了一种利用文本扩展训练来提升向量数据库召回率的方法,包括以下步骤:S1.问题生成与扩展;S2.相似度评估及问题筛选;S3.问题‑答案链接与嵌入;S4.向量数据库的构建和优化;S5.实时检索。本发明在预处理阶段,不仅在扩展原始问题时能够生成多个类似问题,而且引入了文本近邻算法审查机制来评估生成的每个问题的相似度。仅有通过相似度评估标准的问题,能够与原始答案链接,并被嵌入到向量数据库中。查询时,用户的问题将直接与优化存储的数据匹配,进而减少实时查询阶段的负载,提高系统的整体效率。
技术关键词
答案
文本
问答系统
近邻算法
NLP技术
深度学习算法
检索算法
切割工具
分块
阶段
列表
机制
模板
数值
数据