一种基于特征融合及语义增强的细粒度图像分类方法

正文

推荐专利

申请号：CN202411084301

申请日期：2024-08-08

公开号：CN118799646B

公开日期：2025-07-29

类型：发明专利

摘要

本发明公开了一种基于特征融合及语义增强的细粒度图像分类方法。该方法包括以下步骤：首先，利用视觉Transformer(ViT)模型进行特征提取，将输入图像分割成不重叠的patch，通过线性投影转换为嵌入向量，并输入Transformer编码器生成全局特征。接着，通过多层次注意力融合与语义信息结合，提取每层Transformer中的注意力权重，并结合预训练语言模型生成的语义嵌入，计算每个token的重要性分数，选择关键token。然后，对关键token进行二次分块和投影，重新选择二次关键token。通过交叉注意力机制，将全局特征和局部特征进行融合，生成融合特征。最后，将融合特征与全局分类特征结合，输入分类器进行分类，生成分类输出。通过多层次注意力融合和语义增强以及关键token选择，本发明实现对细粒度图像判别性特征区域的准确定位，增强特征的判别性，提高分类准确性。

技术关键词

细粒度图像分类方法交叉注意力机制融合特征预训练语言模型损失函数设计编码器矩阵分块多层次分类器融合语义信息融合全局特征分类特征样本线性前馈神经网络序列

系统为您推荐了相关专利信息

基于自然语言处理的智能检索方法及系统

智能检索方法梯度提升决策树自然语言排序模型语义特征

基于混合视觉Mamba网络的遥感图像变化检测方法

差分解码器混合模块混合编码器融合特征子模块

无人机小目标检测模型训练方法、应用方法及相关产品

检测模型训练方法融合特征可见光上采样方法融合卷积特征

基于判别-生成联合模型的语音增强方法

生成联合模型语音交互网络融合卷积特征判别特征

基于热流密度测量的电站锅炉散热热损失评估方法及系统

模糊隶属度函数节点电站锅炉损失评估方法张量分解方法

一种基于特征融合及语义增强的细粒度图像分类方法

站点导航

APP 下载