摘要
本发明属于计算机听觉技术领域,公开一种基于脉冲神经网络的视听双耳声源定位方法。构建视听声源定位网络;双耳音频信号分别经频域特征提取模块、时域特征提取模块提取频域特征、时域特征;深度图像经空间线索提取模块提取空间几何特征;多源特征自适应融合模块将频域特征、时域特征和空间几何特征进行有效融合;定位模块基于融合特征,预测声源的方位角和距离;分别使用前后两个方向的数据进行声源预测训练,训练后的视听声源定位网络,用于视听双耳声源定位。本方法提升复杂场景中声源定位的精度和鲁棒性,为多模态融合技术在声源定位中的应用开辟了新路径。显式学习前后方声源的差异,使模型学习到视听特征与声源位置之间更复杂的非线性关系。
技术关键词
双耳声源定位方法
双耳音频信号
视听
时域特征提取
频域特征提取
多源特征
融合特征
方位角
多层脉冲神经网络
计算机听觉技术
定位模块
线索
注意力机制
深度图像信息
系统为您推荐了相关专利信息
图像处理模型
高斯滤波器
特征融合方法
图片
数据
哭声识别
混合核函数
K近邻算法
时域特征提取
频域特征提取
柔性传感器
多层感知器
患者生理数据
随机森林
监测方法