摘要
本发明公开了一种基于Transformer的RGB‑T视觉多模态特征提取方法,主要解决现有技术在RGB‑T目标跟踪领域存在的多模态信息提取不足、多模态特征融合不充分的问题。方案包括:以RGB‑TIR图像对为输入,分别提取RGB图像的特征和TIR图像的特征,得到RGB特征向量和TIR特征向量,并处理使其形状相同;以处理后的特征向量为输入,融合模板区域特征和搜索区域特征,分别得到RGB图像和TIR图像的初始视觉提示向量;利用特征权重分配模块交互学习融合RGB特征和TIR特征,得到具有交互融合信息的加权特征,本发明能够有效提取可见光和红外图像的多模态信息,可用于RGB‑T目标跟踪领域。
技术关键词
特征提取方法
视觉
RGB特征
特征提取模块
加权特征
生成RGB图像
图像搜索
编码器
图像模板
Softmax函数
多模态特征融合
注意力
代表
可见光
表达式
网络