一种基于跨膜态注意力机制的声源定位方法

正文

推荐专利

一种基于跨膜态注意力机制的声源定位方法

申请号：CN202510256888

申请日期：2025-03-05

公开号：CN120103262A

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开了一种基于跨膜态注意力机制的声源定位方法，包括：S1：采集音频信号，计算音频信号的对数梅尔频谱，生成MFCC音频特征；S2：接收视频信号，使用卷积神经网络提取视频信号的帧级视频特征；S3：对音频特征和视频特征进行编码，通过对比学习层对齐音频和视频的模态特征，优化模态共享信息并生成模态对齐特征；S4：计算跨膜态注意力权重：利用跨模态注意力机制动态捕捉音频特征和视频特征间的关联性；S5：通过音频特征和视频特征间的关联性筛选高置信度的候选提议区域，对候选提议区域加权，计算各候选提议区域与音频特征的相似度，生成加权后的区域特征，输出声源位置和范围。本发明能够跨膜态融合音视频特征，精准实现声源定位。

技术关键词

声源定位方法音频特征注意力机制卷积神经网络提取模态特征短时傅里叶变换样本跨模态离散余弦变换动态场景信号音视频连续性编码滤波器功率

一种基于跨膜态注意力机制的声源定位方法

站点导航

APP 下载