摘要
一种基于语言解耦与细粒度多模态特征对齐的指称多目标跟踪方法,涉及计算机视觉技术。A.给定包含视频序列和语言描述的训练数据集。B.将步骤A中视频序列输入骨干网络提取视觉特征,将语言描述输入语言模型提取文本特征。C.根据步骤B提取的视觉特征与语言特征经过交叉注意力机制进行多模态对齐与融合。D.将步骤B提取的语言特征解耦为局部描述与运动状态。E.将步骤C提取的细化特征与步骤D提取的局部描述输入静态语义增强模块提取目标信息。F.将步骤E中获得的当前帧目标与已有轨迹使用匈牙利匹配算法关联。G.将步骤F中的匹配的目标特征与步骤D中的运动状态输入运动感知对齐模块,增强目标识别能力;该方法跟踪性能有所提升。
技术关键词
多模态特征
交叉注意力机制
跟踪方法
匈牙利匹配算法
视觉特征
对齐模块
运动
视频
语义
序列
定义
双向注意力
计算机视觉技术
图像
多层感知机
轨迹特征