摘要
本发明涉及一种基于CLIP与注意力融合机制的无监督跨模态哈希检索方法,属于多媒体检索技术领域。该方法首先利用预训练图文特征提取模型CLIP基于深度神经网络的图像和文本编码器为图文数据提取富含语义信息的高维特征向量,为生成准确的伪标签相似度矩阵提供基础;其次,引入基于注意力机制的特征融合模块,通过交叉融合图像模态和文本模态之间不同层的特征表示,用于哈希码的学习过程,从而达到减小模态差异,提高检索准确率;最后,引入联合语义相似性增强矩阵构造模块,该矩阵将图文模态内部的相似性关系和图文模态之间的语义相似性关系进行联合增强,使用该矩阵能够为模型提供更准确的伪标签学习信号,更好地引导哈希码的生成。
技术关键词
监督跨模态哈希检索方法
样本
汉明距离
图像哈希编码
注意力机制
文本特征向量
图像特征向量
矩阵
图文
多媒体检索技术
预训练模型
Softmax函数
模态检索方法
语义特征
高维特征向量