摘要
本发明公开了一种基于图语义交互的多标签图像分类方法,解决了现有技术中缺乏动态适应能力,导致分类性能不佳,且不能充分利用标签之间的复杂关系的问题,该方法包括:获取与待分类图像对应的高维视觉特征图、各标签对应的描述文本和标签嵌入向量;计算各标签之间的初始相似度矩阵,引入多尺度保留机制模型生成标签关系图,进而映射得到高维标签语义特征;将高维视觉特征图与高维标签语义特征进行特征交互,通过跨模态注意力机制生成语义通道注意力向量,并根据语义通道注意力进行动态调整图像特征,得到当前层的输出图像特征;将其输入至分类层中,得到各个标签的分类概率,完成多标签分类任务。
技术关键词
图像分类方法
语义特征
全局视觉特征
注意力机制
多尺度
矩阵
跨模态
标签类别
生成标签
保留特征
关系
多标签
文本
全局平均池化
系统为您推荐了相关专利信息
图像分割网络
透视变换矩阵
大田作物
标注工具
导航方法
克罗恩病
图像分割方法
组合特征提取
多尺度
深度学习技术