一种基于跨模态融合和协同查询匹配的指称多目标跟踪方法

AITNT
正文
推荐专利
一种基于跨模态融合和协同查询匹配的指称多目标跟踪方法
申请号:CN202511117043
申请日期:2025-08-11
公开号:CN120976265A
公开日期:2025-11-18
类型:发明专利
摘要
一种基于跨模态融合和协同查询匹配的指称多目标跟踪方法,涉及计算机视觉技术。从训练数据集的视频序列和语言描述中分别提取视觉特征与语言特征,构建由检测查询和跟踪查询拼接而成的目标查询;通过三重融合模块对视觉特征、语言特征及目标查询进行跨模态融合,生成多模态特征,经残差连接与编码器优化后输入解码器;解码器结合协同查询匹配机制,实现目标查询与新生目标、已跟踪目标的高效匹配;通过预测头模块输出目标的类别、边界框和指称分数,预测目标轨迹并计算损失以训练模型。通过三重融合模块增强跨模态特征一致性,借助协同查询匹配机制提升检测查询训练效率,在复杂场景中准确跟踪与语言描述对应的目标,具有良好的适应性和跟踪精度。
技术关键词
多模态特征 跟踪方法 跨模态 检测损失 输入解码器 视觉特征提取 多头注意力机制 视频 特征提取器 编码器 交叉注意力机制 标签 线性变换矩阵 金字塔特征 计算机视觉技术
系统为您推荐了相关专利信息
1
基于多元信息特征融合的金枪鱼品质分级智能检测方法
智能检测方法 深度学习模型 多头注意力机制 特征提取模型 全局平均池化
2
基于多模态融合的深井铸造铝液泄漏检测方法
泄漏检测方法 积层 融合特征 铝液 编码特征
3
基于多模态融合与文本增强的面部动作单元识别方法及系统
面部表情识别模型 面部图像数据 面部关键点检测 语义特征 面部表情特征
4
基于多模态数据融合的前列腺癌高危人群智能分层预警系统
多模态数据融合 预警系统 超声弹性图像 数据采集模块 基层医疗机构
5
一种基于语义提示的红外小目标检测方法
文本编码器 图像编码器 图像空间分辨率 嵌入特征 两阶段
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号