基于时序跨模态设计Mamba的视听分割方法

正文

推荐专利

申请号：CN202510192666

申请日期：2025-02-21

公开号：CN119672617A

公开日期：2025-03-21

类型：发明专利

摘要

一种基于时序跨模态设计Mamba的视听分割方法，先通过视觉和音频编码器对输入的视频和音频序列进行特征提取，得到多尺度的视觉和音频特征；其中，第2‑4层级的视觉特征通过多尺度时序编码器处理得到增强后的视觉特征；增强后的视觉特征和原始的音频特征被送入模态聚合解码器，并通过视觉‑音频选择性扫描模块分别进行帧内和帧间的视觉‑音频跨模态融合，得到融合后的音频查询；第1层级的最高分辨率特征图、增强后的视觉特征和原始的音频特征被送入上下文融合金字塔中，通过时序Mamba模块和音频‑视觉选择性扫描模块进行跨帧特征增强和上采样以生成优化的掩码特征；最终的分割掩码由掩码特征以及融合后的音频查询通过矩阵乘法得到。

技术关键词

视觉特征音频特征状态空间模型扫描模块时序序列分割方法多尺度跨模态音频编码器视听金字塔解码器分辨率输出特征层级

基于时序跨模态设计Mamba的视听分割方法

站点导航

APP 下载