摘要
本发明公开了一种基于目标自适应文本引导视觉融合的RGBT跟踪方法,包括利用BLIP模型为多模态数据集中的每一帧图像生成目标文本描述;对视频序列和文本描述进行随机采样,获得多模态图像以及对应的目标文本描述;通过视觉编码器和文本编码器分别提取目标的视觉特征和文本特征;通过多模态共享与互补信息提示器增强多模态视觉特征,并利用目标文本自适应增强模块提升文本特征;将文本特征与视觉特征融合得到多模态融合特征,并作为分类回归头的输入进行优化训练;最后执行在线跟踪,加载训练的模型测试跟踪效果。本发明通过文本中包含的目标类别、外观颜色、运动状态等语义信息,增强视觉特征的表达能力,提高了跟踪精度和鲁棒性。
技术关键词
信息提示器
跟踪方法
多模态
视觉特征
文本编码器
分支
融合特征
通道注意力机制
矩阵
可见光图像
多层感知机
数据
索引
模块
元素
系统为您推荐了相关专利信息
虚拟环境系统
CAVE系统
RGBD相机
LED屏幕
三维点云数据
RFID标签
RFID智能标签
轨迹预测模型
变分自动编码器
深度融合网络
动态优化方法
面部关键点检测
多模态
面部表情识别
光照