摘要
本发明公开一种基于文本‑区域匹配的带有缺失标签场景下的多标签图像识别方法,使用预训练视觉‑语言模型作为特征提取器,对视觉特征和查询向量进行交叉注意力运算生成区域级显著性图;利用多层感知机生成查询级特征,通过区域级显著性图对视觉特征进行聚合运算生成区域级特征表示;然后进行知识蒸馏过程,将区域级特征表示的知识迁移到查询级特征表示上,还基于多模态对比学习方法,利用记忆块视觉原型和文本原型进行存储以及对比学习,使得相同特定类别特征彼此趋近,不同特定类别特征适当拉远,从而使原模型建立起更好的类内和类间关系,有效地提高了带有缺失标签场景下的多标签图像识别的准确性。
技术关键词
图像识别方法
视觉特征
原型
多层感知机
联合损失函数
代表
注意力
场景
标签生成方法
多模态
蒸馏
文本编码器
特征提取器
学习方法
记忆
参数
系统为您推荐了相关专利信息
图像生成模型
智能生成方法
文本生成图像
生成对抗网络模型
联合损失函数
废旧动力电池
深度强化学习
人机协同
机器人
动力电池拆解技术
自主导航方法
障碍物
多尺度特征融合
SAC算法
激光传感器