一种基于语言解耦与细粒度多模态特征对齐的指称多目标跟踪方法

正文

推荐专利

申请号：CN202511117198

申请日期：2025-08-11

公开号：CN120976266A

公开日期：2025-11-18

类型：发明专利

摘要

一种基于语言解耦与细粒度多模态特征对齐的指称多目标跟踪方法，涉及计算机视觉技术。A.给定包含视频序列和语言描述的训练数据集。B.将步骤A中视频序列输入骨干网络提取视觉特征，将语言描述输入语言模型提取文本特征。C.根据步骤B提取的视觉特征与语言特征经过交叉注意力机制进行多模态对齐与融合。D.将步骤B提取的语言特征解耦为局部描述与运动状态。E.将步骤C提取的细化特征与步骤D提取的局部描述输入静态语义增强模块提取目标信息。F.将步骤E中获得的当前帧目标与已有轨迹使用匈牙利匹配算法关联。G.将步骤F中的匹配的目标特征与步骤D中的运动状态输入运动感知对齐模块，增强目标识别能力；该方法跟踪性能有所提升。

技术关键词

多模态特征交叉注意力机制跟踪方法匈牙利匹配算法视觉特征对齐模块运动视频语义序列定义双向注意力计算机视觉技术图像多层感知机轨迹特征

一种基于语言解耦与细粒度多模态特征对齐的指称多目标跟踪方法

站点导航

APP 下载