基于CLIP与注意力融合机制的无监督跨模态哈希检索方法

正文

推荐专利

申请号：CN202410813106

申请日期：2024-06-23

公开号：CN118861327A

公开日期：2024-10-29

类型：发明专利

摘要

本发明涉及一种基于CLIP与注意力融合机制的无监督跨模态哈希检索方法，属于多媒体检索技术领域。该方法首先利用预训练图文特征提取模型CLIP基于深度神经网络的图像和文本编码器为图文数据提取富含语义信息的高维特征向量，为生成准确的伪标签相似度矩阵提供基础；其次，引入基于注意力机制的特征融合模块，通过交叉融合图像模态和文本模态之间不同层的特征表示，用于哈希码的学习过程，从而达到减小模态差异，提高检索准确率；最后，引入联合语义相似性增强矩阵构造模块，该矩阵将图文模态内部的相似性关系和图文模态之间的语义相似性关系进行联合增强，使用该矩阵能够为模型提供更准确的伪标签学习信号，更好地引导哈希码的生成。

技术关键词

监督跨模态哈希检索方法样本汉明距离图像哈希编码注意力机制文本特征向量图像特征向量矩阵图文多媒体检索技术预训练模型 Softmax函数模态检索方法语义特征高维特征向量

基于CLIP与注意力融合机制的无监督跨模态哈希检索方法

站点导航

APP 下载