基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法

正文

推荐专利

申请号：CN202411529792

申请日期：2024-10-30

公开号：CN119399505A

公开日期：2025-02-07

类型：发明专利

摘要

本发明公开一种基于文本‑区域匹配的带有缺失标签场景下的多标签图像识别方法，使用预训练视觉‑语言模型作为特征提取器，对视觉特征和查询向量进行交叉注意力运算生成区域级显著性图；利用多层感知机生成查询级特征，通过区域级显著性图对视觉特征进行聚合运算生成区域级特征表示；然后进行知识蒸馏过程，将区域级特征表示的知识迁移到查询级特征表示上，还基于多模态对比学习方法，利用记忆块视觉原型和文本原型进行存储以及对比学习，使得相同特定类别特征彼此趋近，不同特定类别特征适当拉远，从而使原模型建立起更好的类内和类间关系，有效地提高了带有缺失标签场景下的多标签图像识别的准确性。

技术关键词

图像识别方法视觉特征原型多层感知机联合损失函数代表注意力场景标签生成方法多模态蒸馏文本编码器特征提取器学习方法记忆参数

系统为您推荐了相关专利信息

一种基于AIGC的图像智能生成方法及系统

图像生成模型智能生成方法文本生成图像生成对抗网络模型联合损失函数

基于深度强化学习的动力电池拆解任务规划方法

废旧动力电池深度强化学习人机协同机器人动力电池拆解技术

一种基于自进化条件表征的组合泛化图像多标签分类方法

概念多标签分类方法矩阵视觉特征编码器

基于点云大模型和令牌传播的目标跟踪方法

令牌跟踪方法适配器密集特征偏移特征

一种基于POI点提取与目标融合的自主导航方法

自主导航方法障碍物多尺度特征融合 SAC算法激光传感器

基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法

站点导航

APP 下载