一种基于多模态相关性图对齐和多级交叉融合模型的指称多目标跟踪方法

正文

推荐专利

申请号：CN202510511196

申请日期：2025-04-23

公开号：CN120411169A

公开日期：2025-08-01

类型：发明专利

摘要

一种基于多模态相关性图对齐和多级交叉融合模型的指称多目标跟踪方法，涉及计算机视觉技术。先对含视频帧序列、指称句子的训练数据采样并增强，提取视觉与文本特征；通过交叉注意力模块早期融合，经编码器处理后，利用语义注入机制初始化查询；在解码器中，自注意力与语义明晰增强器调节特征交互，对各层输出进行多级融合；采用余弦距离构建相关性图，筛选样本后进行三元组损失学习，建立区域级视觉与词语特征细粒度对应关系；最终经分支预测并优化。通过多模态相关性图对齐模型捕获精确关系，利用多级交叉融合模型增强语义理解，提升模型自适应学习能力。实验表明，在多项指标上显著提升，定位跟踪更准确、鲁棒性更强。

技术关键词

跟踪方法多模态模态特征交叉注意力机制视频帧特征语义三元组计算机视觉技术线性样本输入解码器文本编码器数据

系统为您推荐了相关专利信息

一种基于多模态大模型的图像质量分类处理方法及系统

巡检图像多模态像素点数据区域位置信息

基于对比学习与Transformer的药物-靶标相互作用预测方法、装置及设备

靶标相互作用药物训练预测模型序列多层感知机

车辆密集场景中的图像-文本跨模态车辆检索模型训练方法

语义特征跨模态 sigmoid函数模型训练方法局部图像特征

一种基于多模态视觉大模型的视频态势标签构建方法

标签构建方法事件发展趋势文本多模态音频特征

基于多源异构数据融合的资源栖息地动态预测系统及方法

多源异构数据融合动态预测系统栖息地三维动态可视化决策支持平台

一种基于多模态相关性图对齐和多级交叉融合模型的指称多目标跟踪方法

站点导航

APP 下载