基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法

AITNT
正文
推荐专利
基于文本-区域匹配的带有缺失标签场景下的多标签图像识别方法
申请号:CN202411529792
申请日期:2024-10-30
公开号:CN119399505A
公开日期:2025-02-07
类型:发明专利
摘要
本发明公开一种基于文本‑区域匹配的带有缺失标签场景下的多标签图像识别方法,使用预训练视觉‑语言模型作为特征提取器,对视觉特征和查询向量进行交叉注意力运算生成区域级显著性图;利用多层感知机生成查询级特征,通过区域级显著性图对视觉特征进行聚合运算生成区域级特征表示;然后进行知识蒸馏过程,将区域级特征表示的知识迁移到查询级特征表示上,还基于多模态对比学习方法,利用记忆块视觉原型和文本原型进行存储以及对比学习,使得相同特定类别特征彼此趋近,不同特定类别特征适当拉远,从而使原模型建立起更好的类内和类间关系,有效地提高了带有缺失标签场景下的多标签图像识别的准确性。
技术关键词
图像识别方法 视觉特征 原型 多层感知机 联合损失函数 代表 注意力 场景 标签生成方法 多模态 蒸馏 文本编码器 特征提取器 学习方法 记忆 参数
系统为您推荐了相关专利信息
1
一种基于AIGC的图像智能生成方法及系统
图像生成模型 智能生成方法 文本生成图像 生成对抗网络模型 联合损失函数
2
基于深度强化学习的动力电池拆解任务规划方法
废旧动力电池 深度强化学习 人机协同 机器人 动力电池拆解技术
3
一种基于自进化条件表征的组合泛化图像多标签分类方法
概念 多标签分类方法 矩阵 视觉特征 编码器
4
基于点云大模型和令牌传播的目标跟踪方法
令牌 跟踪方法 适配器 密集特征 偏移特征
5
一种基于POI点提取与目标融合的自主导航方法
自主导航方法 障碍物 多尺度特征融合 SAC算法 激光传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号