摘要
一种基于时序跨模态设计Mamba的视听分割方法,先通过视觉和音频编码器对输入的视频和音频序列进行特征提取,得到多尺度的视觉和音频特征;其中,第2‑4层级的视觉特征通过多尺度时序编码器处理得到增强后的视觉特征;增强后的视觉特征和原始的音频特征被送入模态聚合解码器,并通过视觉‑音频选择性扫描模块分别进行帧内和帧间的视觉‑音频跨模态融合,得到融合后的音频查询;第1层级的最高分辨率特征图、增强后的视觉特征和原始的音频特征被送入上下文融合金字塔中,通过时序Mamba模块和音频‑视觉选择性扫描模块进行跨帧特征增强和上采样以生成优化的掩码特征;最终的分割掩码由掩码特征以及融合后的音频查询通过矩阵乘法得到。
技术关键词
视觉特征
音频特征
状态空间模型
扫描模块
时序
序列
分割方法
多尺度
跨模态
音频编码器
视听
金字塔
解码器
分辨率
输出特征
层级