摘要
本发明公开了一种基于深度学习的RAG检索优化方法、系统及电子设备,包括将存储于不同场景的知识库中的各类文档进行预处理;将预处理后的文本块进行分词处理,获得文本块分词处理后的语料;获取待检索的用户问题,将用户问题和文档中的文本块进行向量化;将向量化后的文本块通过python Annoy框架近似搜索算法构建向量搜索库,得到问题向量的相似向量;利用TF‑IDF算法,基于文本块分词后的语料,提取出文本块的关键词;利用文本块的关键词和所述相似向量进行模型训练;基于训练好的TF‑IDF模型,抽取输入问题和文本块的关键词集合的相似度,分类召回目标知识库。上述方案利用深度学习实现知识库分类粗召回,可弥补采用以往的全量文本块召回导致的耗时长的缺陷。
技术关键词
文本
分词
语义分割算法
数据
抽取关键词
场景
编码器
搜索算法
样本
可读存储介质
模块
处理器
电子设备
关系
定义
电子装置
框架
系统为您推荐了相关专利信息
地面无人平台
误差模型
运动控制模型
仿真方法
数据驱动模型
数据安全传输方法
联邦学习模型
中心服务器
数据加密密钥
解密
热舒适评价
深度学习语义分割
XGBoost算法
视觉
街景
车道
路段
地图数据处理方法
关系
地图数据处理装置
音色特征
语音
迁移学习技术
深度学习算法
非临时性计算机可读存储介质