基于目标自适应文本引导视觉融合的RGBT跟踪方法

AITNT
正文
推荐专利
基于目标自适应文本引导视觉融合的RGBT跟踪方法
申请号:CN202510510767
申请日期:2025-04-23
公开号:CN120031918A
公开日期:2025-05-23
类型:发明专利
摘要
本发明公开了一种基于目标自适应文本引导视觉融合的RGBT跟踪方法,包括利用BLIP模型为多模态数据集中的每一帧图像生成目标文本描述;对视频序列和文本描述进行随机采样,获得多模态图像以及对应的目标文本描述;通过视觉编码器和文本编码器分别提取目标的视觉特征和文本特征;通过多模态共享与互补信息提示器增强多模态视觉特征,并利用目标文本自适应增强模块提升文本特征;将文本特征与视觉特征融合得到多模态融合特征,并作为分类回归头的输入进行优化训练;最后执行在线跟踪,加载训练的模型测试跟踪效果。本发明通过文本中包含的目标类别、外观颜色、运动状态等语义信息,增强视觉特征的表达能力,提高了跟踪精度和鲁棒性。
技术关键词
信息提示器 跟踪方法 多模态 视觉特征 文本编码器 分支 融合特征 通道注意力机制 矩阵 可见光图像 多层感知机 数据 索引 模块 元素
系统为您推荐了相关专利信息
1
基于多模态大模型的智能医疗预问诊方法、系统和介质
问诊方法 多模态 医学知识图谱 意图 关键字
2
一种基于LED的沉浸式虚拟环境系统和方法
虚拟环境系统 CAVE系统 RGBD相机 LED屏幕 三维点云数据
3
RFID智能标签定位追踪印刷方法及系统
RFID标签 RFID智能标签 轨迹预测模型 变分自动编码器 深度融合网络
4
一种基于多模态融合的视频换脸动态优化方法
动态优化方法 面部关键点检测 多模态 面部表情识别 光照
5
一种水质参数反演模型的构建方法
水质模型 数据 反演模型 参数 影像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号