摘要
本发明公开了一种基于跨膜态注意力机制的声源定位方法,包括:S1:采集音频信号,计算音频信号的对数梅尔频谱,生成MFCC音频特征;S2:接收视频信号,使用卷积神经网络提取视频信号的帧级视频特征;S3:对音频特征和视频特征进行编码,通过对比学习层对齐音频和视频的模态特征,优化模态共享信息并生成模态对齐特征;S4:计算跨膜态注意力权重:利用跨模态注意力机制动态捕捉音频特征和视频特征间的关联性;S5:通过音频特征和视频特征间的关联性筛选高置信度的候选提议区域,对候选提议区域加权,计算各候选提议区域与音频特征的相似度,生成加权后的区域特征,输出声源位置和范围。本发明能够跨膜态融合音视频特征,精准实现声源定位。
技术关键词
声源定位方法
音频特征
注意力机制
卷积神经网络提取
模态特征
短时傅里叶变换
样本
跨模态
离散余弦变换
动态场景
信号
音视频
连续性
编码
滤波器
功率