摘要
一种基于多层级特征聚合的时空关联视觉目标跟踪算法,该算法将时间令牌、参考帧和搜索帧组成的视频片段输入到以ViT‑Base为基础结构的特征提取网络中来捕捉视频中的长距离全局上下文,并提取出多层级时间令牌和搜索帧特征。针对多层级时间令牌,首先采用双向策略对不同层级特征进行聚合,接下来引入结合傅里叶变换的可学习时间令牌,通过重点关注时间令牌从浅层到深层之间的多层级频率特性,抑制多层级聚合带来的噪声干扰并增强目标特征。针对搜索帧特征,利用多层级跨轴注意力机制来计算不同层级和轴向的注意力特征并进行融合,以获得更丰富的目标特征表示。最后,利用自注意力将多层级时间令牌和搜索帧特征进行聚合并送入预测头网络实现目标跟踪。
技术关键词
多层级特征
令牌
特征提取网络
注意力机制
输出特征
双线性插值
算法
视觉
多层感知网络
基础结构
非线性
后处理模块
通道
代表
视频
阶段
傅立叶