摘要
本发明提供了一种基于视觉Transformer的军用目标识别方法、装置和程序产品,所述基于视觉Transformer的军用目标识别方法包括:将图像拆成多个图像块后,对每个图像块进行1/2,1/4程度的下采样,从而得到每个图像块的多尺度表示,然后使用可变形卷积对图像块进行特征提取;在完成特征提取后,将从1/4采样上经过可变形卷积得到的特征图使用Pixel shuffle进行上采样,将上采样得到的特征图与1/2采样上经过可变形卷积得到的特征图进行相加,从而使得相加后的特征图既含有细粒度信息,也含有宏观尺度上的结构信息。将该操作在原始图像块上得到的特征图重复后使得该特征图有更丰富的空间信息,最后将三个特征图延展成一维向量后拼接在一起,送入Encoder模块进行目标识别。
技术关键词
线性模块
识别方法
采样模块
卷积模块
图像块
解码模块
视觉
上采样
图像分割
识别装置
通信接口
处理器
存储器
计算机程序产品
拼接模块
注意力
计算机设备
系统为您推荐了相关专利信息
跟踪方法
特征提取模块
融合特征
多模态
输出特征
视觉特征
多模态
惯性传感器数据
识别方法
适配器
无限高斯混合模型
边界识别方法
太阳能
遥感反演
分区