一种视觉Transformer的图像块划分预处理方法

正文

推荐专利

申请号：CN202410901181

申请日期：2024-07-05

公开号：CN118918431A

公开日期：2024-11-08

类型：发明专利

摘要

本发明公开了一种视觉Transformer的图像块划分预处理方法，该方法针对视觉Transformer缺少图像的局部性、平移不变性，对PVT图像分类算法进行改进，在其基础上对图像块做了多尺度特征融合的处理，提出了多尺度特征融合的图像块嵌入层(MSFF_PE)，通过设计的轻量化多尺度特征融合模块，丰富图像块内的多尺度特征信息，加强图像块的特征表示能力。针对编码器结构中缺少局部信息的建模，提出了多尺度局部增强的前馈神经网络层(MSLE_FF)，将注意力机制输出的一维序列复原为二维图像进行局部信息的交互，并引入距离重要性获取局部特征的加权信息。最后，经过实验验证本发明方法的有效性。

技术关键词

图像块多尺度特征融合前馈神经网络图像分类算法视觉编码器结构注意力机制标签模块训练集通道参数有效性空洞支路线性序列基础

系统为您推荐了相关专利信息

适用于数字视听场所的自动生成MV的方法、介质和设备

数字视听场所歌词信息显示设备灯光控制生成歌词

一种图像筛选方法、图像识别方法、装置及电子设备

图像筛选方法网络表征对象样本强化学习算法

一种分镜图生成方法、装置、电子设备及存储介质

大语言模型视觉特征语义特征文本场景

面向子母船自主协同航行的域控制器系统

子母船环境感知信息水文气象设备视觉传感器芯片

基于时空注意力机制与多尺度卷积的臭氧浓度估算方法

时空注意力机制时间卷积网络空间模块门控神经网络卫星遥感数据

一种视觉Transformer的图像块划分预处理方法

站点导航

APP 下载