一种基于Transformer的RGB-T视觉多模态特征提取方法

正文

推荐专利

申请号：CN202410781681

申请日期：2024-06-18

公开号：CN118736363A

公开日期：2024-10-01

类型：发明专利

摘要

本发明公开了一种基于Transformer的RGB‑T视觉多模态特征提取方法，主要解决现有技术在RGB‑T目标跟踪领域存在的多模态信息提取不足、多模态特征融合不充分的问题。方案包括：以RGB‑TIR图像对为输入，分别提取RGB图像的特征和TIR图像的特征，得到RGB特征向量和TIR特征向量，并处理使其形状相同；以处理后的特征向量为输入，融合模板区域特征和搜索区域特征，分别得到RGB图像和TIR图像的初始视觉提示向量；利用特征权重分配模块交互学习融合RGB特征和TIR特征，得到具有交互融合信息的加权特征，本发明能够有效提取可见光和红外图像的多模态信息，可用于RGB‑T目标跟踪领域。

技术关键词

特征提取方法视觉 RGB特征特征提取模块加权特征生成RGB图像图像搜索编码器图像模板 Softmax函数多模态特征融合注意力代表可见光表达式网络

一种基于Transformer的RGB-T视觉多模态特征提取方法

站点导航

APP 下载