摘要
本发明提供一种基于自适应感知的通用型多模态目标跟踪模型、训练方法、应用。具体的,在模型输入层,考虑到可见光模态比红外、深度和事件模态具有更加丰富的语义信息,为了更好的保留这些信息,为可见光模态单独设置了一个嵌入层,为红外、深度和事件模态设置一个共享的嵌入层,这样的设置同样也兼顾了输入层的灵活性,这为了能够对输入模态进行自适应感知,设计了一个简单有效的模态感知模块,能够同时进行特征提取、特征交互和模态感知。在多模态跟踪中,每个模态都包含一些与模态无关的信息,例如目标的形状、运动和上下文信息等。这些信息有助于捕捉不同模态之间共享的语义信息,从而协助模型理解目标的整体上下文。此外,承载着每种模态独特的视角和信息的模态特定特征也十分关键,它可以促进模型对整体信息的理解和处理能力。通过充分利用模态无关特征和模态特定特征,可以提高模型对复杂多模态数据的感知和分析水平,实现更准确、鲁棒的任务执行。
技术关键词
令牌
多模态
通用型
分类器
可见光
模板
模块
注意力
视觉
序列
分支
数据
计算机
可读存储介质
参数
特征选择
处理器通信
输出特征
指令
系统为您推荐了相关专利信息
多维度信息融合
检测识别方法
网络模块
加速度
注意力机制
文化传播系统
文本生成模型
分层验证
视频特征向量
博物馆藏品
红外图像彩色化
注意力
彩色图像
掩膜数量
编码器