摘要
本发明公开了一种基于Transformer神经网络的图像分类方法,属于图像分类领域,涉及Transformer神经网络技术,包括以下步骤:获取输入图像,使用Sobel算子分别计算输入图像中每个像素的梯度幅值分量;根据所述梯度幅值分量计算输入图像的梯度变异值,并根据所述梯度变异值对输入图像进行动态自适应分块;将所述分块展平为向量序列,根据预训练的ViT模型扩展线性投影层权重,并通过线性投影层将所述向量序列线性投影为d维嵌入向量;为所述嵌入向量加入位置编码并生成特征向量;根据所述动态自适应分块的类型,使用Transformer的多头注意力机制或跨尺度交叉注意力机制对所述特征向量进行处理,输出所述输入图像的类别概率分布;本发明能够平衡图像分类的效率与精度。
技术关键词
图像分类方法
交叉注意力机制
多头注意力机制
生成特征向量
幅值
分块特征
像素
Softmax函数
序列
令牌
线性
神经网络技术
动态
通道
全局平均池化
编码
分阶段
预训练模型
系统为您推荐了相关专利信息
系统控制参数
产品规格参数
棉纤维颜色
纱线
融合特征
智能分流方法
体检机构
项目
机器学习模型
非暂态计算机可读存储介质
生成特征向量
二氧化碳监测仪
自动生成系统
编码向量
特征提取单元