摘要
本发明公开了一种基于大规模视觉语言模型的弱监督哈希图像检索方法及系统。使用含有弱监督标签的训练集微调大规模视觉语言模型CLIP,将得到的微调权重和原始权重进行线性插值作为后续使用的模型权重;设计弱监督标签优化模块在推理阶段消除冗余特征;采用预训练的AlexNet网络提取图像的视觉特征,通过哈希层和重构层将图像特征分别映射成哈希码和与文本特征同维度的特征向量;通过多头自注意机制计算图片对应各标签的分数;设计了一个平衡损失使得模型在训练过程中更加关注较难的尾部类别。本发明能够有效缓解数据集中样本分布的长尾问题,更加精准地实现弱监督哈希图像检索。
技术关键词
哈希图像检索方法
汉明距离
标签
冗余特征
图片
文本编码器
注意力机制
视觉
哈希特征向量
预训练模型
Sigmoid函数
卷积神经网络提取
图像检索系统
代表
文本特征向量
系统为您推荐了相关专利信息
特征提取模块
样本
分类模型训练方法
交叉注意力机制
融合特征
场景推荐方法
大语言模型
出行需求
标签
旅游平台