基于大规模视觉语言模型的弱监督哈希图像检索方法及系统

AITNT
正文
推荐专利
基于大规模视觉语言模型的弱监督哈希图像检索方法及系统
申请号:CN202410791031
申请日期:2024-06-19
公开号:CN119025695B
公开日期:2025-12-26
类型:发明专利
摘要
本发明公开了一种基于大规模视觉语言模型的弱监督哈希图像检索方法及系统。使用含有弱监督标签的训练集微调大规模视觉语言模型CLIP,将得到的微调权重和原始权重进行线性插值作为后续使用的模型权重;设计弱监督标签优化模块在推理阶段消除冗余特征;采用预训练的AlexNet网络提取图像的视觉特征,通过哈希层和重构层将图像特征分别映射成哈希码和与文本特征同维度的特征向量;通过多头自注意机制计算图片对应各标签的分数;设计了一个平衡损失使得模型在训练过程中更加关注较难的尾部类别。本发明能够有效缓解数据集中样本分布的长尾问题,更加精准地实现弱监督哈希图像检索。
技术关键词
哈希图像检索方法 汉明距离 标签 冗余特征 图片 文本编码器 注意力机制 视觉 哈希特征向量 预训练模型 Sigmoid函数 卷积神经网络提取 图像检索系统 代表 文本特征向量
系统为您推荐了相关专利信息
1
一种基于预训练模型的视觉神经网络模型剪枝方法
模型剪枝方法 预训练模型 矩阵 剪枝模型 网络
2
基于AI助教的智能教育问答信息处理系统
问答信息处理系统 模块通信 答案 匹配模块 语义
3
基于多视图融合的骨肿瘤分类模型训练方法、分类方法及系统
特征提取模块 样本 分类模型训练方法 交叉注意力机制 融合特征
4
一种出游场景推荐方法、装置、终端及存储介质
场景推荐方法 大语言模型 出行需求 标签 旅游平台
5
一种基于大模型对抗恶意蜘蛛池的方法
长尾关键词 语义 爬虫 正确率 历史页面
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号