摘要
本发明属于机器学习、计算机视觉、目标跟踪领域,公开了一种基于模态统一表示的多模态统一目标跟踪方法。通过一个多模态嵌入层,将可见光、深度、红外、事件、自然语言模态表示为统一的标记形式,使得训练一个Transformer模型对多种模态的联合特征提取与融合成为可能,从而开发可处理不同的多模态输入信号的目标跟踪模型。此外,本方法中引入任务识别训练策略以增强模型分辨不同模态跟踪任务的能力,提出软标记类型嵌入提供给模型精确的标记类型信息,进一步提升该多模态统一模型性能表现。最终,本方法通过统一的方案解决了不同的多模态跟踪任务,实现了不同任务间的架构统一、模型统一、知识共享,在五种多模态跟踪任务上取得良好的跟踪性能。
技术关键词
可见光
多模态
标记
自然语言
联合特征提取
图像块
跟踪方法
多层感知机
数据
文本编码器
置信度阈值
生成模板
通道
计算机视觉
注意力机制
动态更新
策略
系统为您推荐了相关专利信息
出行信息提示方法
面向老年人
出行规律
电子地图数据
应用程序账号
辅助驾驶系统
透明显示模块
传感模块
辅助驾驶信息
主机
对准检测装置
堆叠芯片
对准标记
对准检测方法
移动台
可穿戴式设备
运动模拟装置
仿真人体
坐标系
指标