摘要
本公开涉及图像检索技术领域,提供了一种增强细粒度对象检索性能的图像检索方法、系统、设备及介质,所述方法通过多尺度图像截取技术处理原始图像,生成目标图像和切片集合,这些图像被输入编码器,构建图像向量库,同时,多模态大模型对图像和切片进行语义分析,生成文本描述并构建文本向量库,在检索阶段,基于图像向量进行视觉相似度匹配,并基于文本向量库进行文本相似度匹配,整合结果得到候选集合,最后,通过加权融合和排序,得到最终检索结果。本公开显著提升了细粒度对象检索的准确性,通过结合视觉和文本信息,不仅增强了检索的全面性,还提高了结果的相关性,使得用户能够更快速、更精确地找到所需信息。
技术关键词
图像检索方法
图像截取技术
语义
文本
图像编码器
切片
多尺度
计算机程序产品
对象
图像检索系统
视觉特征
图像检索技术
多模态
图像分割模型
处理器
图像特征提取
计算机存储介质
电子设备