摘要
一种基于多模态相关性图对齐和多级交叉融合模型的指称多目标跟踪方法,涉及计算机视觉技术。先对含视频帧序列、指称句子的训练数据采样并增强,提取视觉与文本特征;通过交叉注意力模块早期融合,经编码器处理后,利用语义注入机制初始化查询;在解码器中,自注意力与语义明晰增强器调节特征交互,对各层输出进行多级融合;采用余弦距离构建相关性图,筛选样本后进行三元组损失学习,建立区域级视觉与词语特征细粒度对应关系;最终经分支预测并优化。通过多模态相关性图对齐模型捕获精确关系,利用多级交叉融合模型增强语义理解,提升模型自适应学习能力。实验表明,在多项指标上显著提升,定位跟踪更准确、鲁棒性更强。
技术关键词
跟踪方法
多模态
模态特征
交叉注意力机制
视频帧特征
语义
三元组
计算机视觉技术
线性
样本
输入解码器
文本编码器
数据
系统为您推荐了相关专利信息
靶标相互作用
药物
训练预测模型
序列
多层感知机
语义特征
跨模态
sigmoid函数
模型训练方法
局部图像特征
标签构建方法
事件发展趋势
文本
多模态
音频特征
多源异构数据融合
动态预测系统
栖息地
三维动态可视化
决策支持平台