摘要
本发明公开了一种基于特征融合及语义增强的细粒度图像分类方法。该方法包括以下步骤:首先,利用视觉Transformer(ViT)模型进行特征提取,将输入图像分割成不重叠的patch,通过线性投影转换为嵌入向量,并输入Transformer编码器生成全局特征。接着,通过多层次注意力融合与语义信息结合,提取每层Transformer中的注意力权重,并结合预训练语言模型生成的语义嵌入,计算每个token的重要性分数,选择关键token。然后,对关键token进行二次分块和投影,重新选择二次关键token。通过交叉注意力机制,将全局特征和局部特征进行融合,生成融合特征。最后,将融合特征与全局分类特征结合,输入分类器进行分类,生成分类输出。通过多层次注意力融合和语义增强以及关键token选择,本发明实现对细粒度图像判别性特征区域的准确定位,增强特征的判别性,提高分类准确性。
技术关键词
细粒度图像分类方法
交叉注意力机制
融合特征
预训练语言模型
损失函数设计
编码器
矩阵
分块
多层次
分类器
融合语义信息
融合全局特征
分类特征
样本
线性
前馈神经网络
序列
系统为您推荐了相关专利信息
智能检索方法
梯度提升决策树
自然语言
排序模型
语义特征
差分解码器
混合模块
混合编码器
融合特征
子模块
检测模型训练方法
融合特征
可见光
上采样方法
融合卷积特征
生成联合模型
语音
交互网络
融合卷积特征
判别特征
模糊隶属度函数
节点
电站锅炉
损失评估方法
张量分解方法