基于目标自适应文本引导视觉融合的RGBT跟踪方法

正文

推荐专利

申请号：CN202510510767

申请日期：2025-04-23

公开号：CN120031918A

公开日期：2025-05-23

类型：发明专利

摘要

本发明公开了一种基于目标自适应文本引导视觉融合的RGBT跟踪方法，包括利用BLIP模型为多模态数据集中的每一帧图像生成目标文本描述；对视频序列和文本描述进行随机采样，获得多模态图像以及对应的目标文本描述；通过视觉编码器和文本编码器分别提取目标的视觉特征和文本特征；通过多模态共享与互补信息提示器增强多模态视觉特征，并利用目标文本自适应增强模块提升文本特征；将文本特征与视觉特征融合得到多模态融合特征，并作为分类回归头的输入进行优化训练；最后执行在线跟踪，加载训练的模型测试跟踪效果。本发明通过文本中包含的目标类别、外观颜色、运动状态等语义信息，增强视觉特征的表达能力，提高了跟踪精度和鲁棒性。

技术关键词

信息提示器跟踪方法多模态视觉特征文本编码器分支融合特征通道注意力机制矩阵可见光图像多层感知机数据索引模块元素

系统为您推荐了相关专利信息

基于多模态大模型的智能医疗预问诊方法、系统和介质

问诊方法多模态医学知识图谱意图关键字

一种基于LED的沉浸式虚拟环境系统和方法

虚拟环境系统 CAVE系统 RGBD相机 LED屏幕三维点云数据

RFID智能标签定位追踪印刷方法及系统

RFID标签 RFID智能标签轨迹预测模型变分自动编码器深度融合网络

一种基于多模态融合的视频换脸动态优化方法

动态优化方法面部关键点检测多模态面部表情识别光照

一种水质参数反演模型的构建方法

水质模型数据反演模型参数影像

基于目标自适应文本引导视觉融合的RGBT跟踪方法

站点导航

APP 下载