一种视觉Transformer的图像块划分预处理方法

AITNT
正文
推荐专利
一种视觉Transformer的图像块划分预处理方法
申请号:CN202410901181
申请日期:2024-07-05
公开号:CN118918431A
公开日期:2024-11-08
类型:发明专利
摘要
本发明公开了一种视觉Transformer的图像块划分预处理方法,该方法针对视觉Transformer缺少图像的局部性、平移不变性,对PVT图像分类算法进行改进,在其基础上对图像块做了多尺度特征融合的处理,提出了多尺度特征融合的图像块嵌入层(MSFF_PE),通过设计的轻量化多尺度特征融合模块,丰富图像块内的多尺度特征信息,加强图像块的特征表示能力。针对编码器结构中缺少局部信息的建模,提出了多尺度局部增强的前馈神经网络层(MSLE_FF),将注意力机制输出的一维序列复原为二维图像进行局部信息的交互,并引入距离重要性获取局部特征的加权信息。最后,经过实验验证本发明方法的有效性。
技术关键词
图像块 多尺度特征融合 前馈神经网络 图像分类算法 视觉 编码器结构 注意力机制 标签 模块 训练集 通道 参数 有效性 空洞 支路 线性 序列 基础
系统为您推荐了相关专利信息
1
适用于数字视听场所的自动生成MV的方法、介质和设备
数字视听场所 歌词信息 显示设备 灯光控制 生成歌词
2
一种图像筛选方法、图像识别方法、装置及电子设备
图像筛选方法 网络表征 对象 样本 强化学习算法
3
一种分镜图生成方法、装置、电子设备及存储介质
大语言模型 视觉特征 语义特征 文本 场景
4
面向子母船自主协同航行的域控制器系统
子母船 环境感知信息 水文气象设备 视觉传感器 芯片
5
基于时空注意力机制与多尺度卷积的臭氧浓度估算方法
时空注意力机制 时间卷积网络 空间模块 门控神经网络 卫星遥感数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号