摘要
一种基于跨模态融合和协同查询匹配的指称多目标跟踪方法,涉及计算机视觉技术。从训练数据集的视频序列和语言描述中分别提取视觉特征与语言特征,构建由检测查询和跟踪查询拼接而成的目标查询;通过三重融合模块对视觉特征、语言特征及目标查询进行跨模态融合,生成多模态特征,经残差连接与编码器优化后输入解码器;解码器结合协同查询匹配机制,实现目标查询与新生目标、已跟踪目标的高效匹配;通过预测头模块输出目标的类别、边界框和指称分数,预测目标轨迹并计算损失以训练模型。通过三重融合模块增强跨模态特征一致性,借助协同查询匹配机制提升检测查询训练效率,在复杂场景中准确跟踪与语言描述对应的目标,具有良好的适应性和跟踪精度。
技术关键词
多模态特征
跟踪方法
跨模态
检测损失
输入解码器
视觉特征提取
多头注意力机制
视频
特征提取器
编码器
交叉注意力机制
标签
线性变换矩阵
金字塔特征
计算机视觉技术
系统为您推荐了相关专利信息
智能检测方法
深度学习模型
多头注意力机制
特征提取模型
全局平均池化
面部表情识别模型
面部图像数据
面部关键点检测
语义特征
面部表情特征
多模态数据融合
预警系统
超声弹性图像
数据采集模块
基层医疗机构
文本编码器
图像编码器
图像空间分辨率
嵌入特征
两阶段