基于CLIP与注意力融合机制的无监督跨模态哈希检索方法

AITNT
正文
推荐专利
基于CLIP与注意力融合机制的无监督跨模态哈希检索方法
申请号:CN202410813106
申请日期:2024-06-23
公开号:CN118861327A
公开日期:2024-10-29
类型:发明专利
摘要
本发明涉及一种基于CLIP与注意力融合机制的无监督跨模态哈希检索方法,属于多媒体检索技术领域。该方法首先利用预训练图文特征提取模型CLIP基于深度神经网络的图像和文本编码器为图文数据提取富含语义信息的高维特征向量,为生成准确的伪标签相似度矩阵提供基础;其次,引入基于注意力机制的特征融合模块,通过交叉融合图像模态和文本模态之间不同层的特征表示,用于哈希码的学习过程,从而达到减小模态差异,提高检索准确率;最后,引入联合语义相似性增强矩阵构造模块,该矩阵将图文模态内部的相似性关系和图文模态之间的语义相似性关系进行联合增强,使用该矩阵能够为模型提供更准确的伪标签学习信号,更好地引导哈希码的生成。
技术关键词
监督跨模态哈希检索方法 样本 汉明距离 图像哈希编码 注意力机制 文本特征向量 图像特征向量 矩阵 图文 多媒体检索技术 预训练模型 Softmax函数 模态检索方法 语义特征 高维特征向量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号