一种基于跨膜态注意力机制的声源定位方法

AITNT
正文
推荐专利
一种基于跨膜态注意力机制的声源定位方法
申请号:CN202510256888
申请日期:2025-03-05
公开号:CN120103262A
公开日期:2025-06-06
类型:发明专利
摘要
本发明公开了一种基于跨膜态注意力机制的声源定位方法,包括:S1:采集音频信号,计算音频信号的对数梅尔频谱,生成MFCC音频特征;S2:接收视频信号,使用卷积神经网络提取视频信号的帧级视频特征;S3:对音频特征和视频特征进行编码,通过对比学习层对齐音频和视频的模态特征,优化模态共享信息并生成模态对齐特征;S4:计算跨膜态注意力权重:利用跨模态注意力机制动态捕捉音频特征和视频特征间的关联性;S5:通过音频特征和视频特征间的关联性筛选高置信度的候选提议区域,对候选提议区域加权,计算各候选提议区域与音频特征的相似度,生成加权后的区域特征,输出声源位置和范围。本发明能够跨膜态融合音视频特征,精准实现声源定位。
技术关键词
声源定位方法 音频特征 注意力机制 卷积神经网络提取 模态特征 短时傅里叶变换 样本 跨模态 离散余弦变换 动态场景 信号 音视频 连续性 编码 滤波器 功率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号