摘要
本发明公开了一种组合图像检索方法及装置,方法包括将组合查询数据中的文本数据以及图像数据分别输入到第一特征提取网络以及第二特征提取网络中,得到第一文本特征以及第一图像特征;将第一图像特征以及第一文本特征分别输入第一条件融合网络以及第二条件融合网络中进行双向融合;输出第一联合语义以及第二联合语义;分别计算候选图像集中每个候选图像的候选图像语义与第一联合语义以及第二联合语义的相似度,并将第一相似度矩阵和第二相似度矩阵进行加权聚合,得到融合相似度矩阵,以确定组合查询数据对应的目标图像。本发明能够解决现有组合图像检索技术中存在的单模态依赖严重、语义对齐不足、多模态融合不充分等技术问题。
技术关键词
图像检索方法
特征提取网络
语义
注意力
矩阵
文本编码器
图像检索装置
图像数据分割
图像检索技术
序列
多路径
视觉
特征提取模块
图像块
多模态