摘要
本发明公开了一种视觉Transformer的图像块划分预处理方法,该方法针对视觉Transformer缺少图像的局部性、平移不变性,对PVT图像分类算法进行改进,在其基础上对图像块做了多尺度特征融合的处理,提出了多尺度特征融合的图像块嵌入层(MSFF_PE),通过设计的轻量化多尺度特征融合模块,丰富图像块内的多尺度特征信息,加强图像块的特征表示能力。针对编码器结构中缺少局部信息的建模,提出了多尺度局部增强的前馈神经网络层(MSLE_FF),将注意力机制输出的一维序列复原为二维图像进行局部信息的交互,并引入距离重要性获取局部特征的加权信息。最后,经过实验验证本发明方法的有效性。
技术关键词
图像块
多尺度特征融合
前馈神经网络
图像分类算法
视觉
编码器结构
注意力机制
标签
模块
训练集
通道
参数
有效性
空洞
支路
线性
序列
基础
系统为您推荐了相关专利信息
数字视听场所
歌词信息
显示设备
灯光控制
生成歌词
子母船
环境感知信息
水文气象设备
视觉传感器
芯片
时空注意力机制
时间卷积网络
空间模块
门控神经网络
卫星遥感数据