基于大规模视觉语言模型的弱监督哈希图像检索方法及系统

正文

推荐专利

申请号：CN202410791031

申请日期：2024-06-19

公开号：CN119025695B

公开日期：2025-12-26

类型：发明专利

摘要

本发明公开了一种基于大规模视觉语言模型的弱监督哈希图像检索方法及系统。使用含有弱监督标签的训练集微调大规模视觉语言模型CLIP，将得到的微调权重和原始权重进行线性插值作为后续使用的模型权重；设计弱监督标签优化模块在推理阶段消除冗余特征；采用预训练的AlexNet网络提取图像的视觉特征，通过哈希层和重构层将图像特征分别映射成哈希码和与文本特征同维度的特征向量；通过多头自注意机制计算图片对应各标签的分数；设计了一个平衡损失使得模型在训练过程中更加关注较难的尾部类别。本发明能够有效缓解数据集中样本分布的长尾问题，更加精准地实现弱监督哈希图像检索。

技术关键词

哈希图像检索方法汉明距离标签冗余特征图片文本编码器注意力机制视觉哈希特征向量预训练模型 Sigmoid函数卷积神经网络提取图像检索系统代表文本特征向量

系统为您推荐了相关专利信息

一种基于预训练模型的视觉神经网络模型剪枝方法

模型剪枝方法预训练模型矩阵剪枝模型网络

基于AI助教的智能教育问答信息处理系统

问答信息处理系统模块通信答案匹配模块语义

基于多视图融合的骨肿瘤分类模型训练方法、分类方法及系统

特征提取模块样本分类模型训练方法交叉注意力机制融合特征

一种出游场景推荐方法、装置、终端及存储介质

场景推荐方法大语言模型出行需求标签旅游平台

一种基于大模型对抗恶意蜘蛛池的方法

长尾关键词语义爬虫正确率历史页面

基于大规模视觉语言模型的弱监督哈希图像检索方法及系统

站点导航

APP 下载