摘要
本发明提出了一种卷积循环神经网络的多声源检测与定位方法及系统。本发明提取多声道音频的幅度与相位特征,使用嵌入层为每帧音频生成位置编码,将特征与位置编码共同输入神经网络,并在网络结构中使用卷积神经网络依据通道间特征,学习声源类别的区分和声源定位,卷积层间使用多组空洞空间金字塔池化从不同尺度提取特征,使用空间转换器网络保持卷积神经网络的平移不变性,使用基于注意力机制的门控循环单元学习上下文信息,依据先前帧的信息辅助预测当前帧的声源位置,使用全局平均池化处理获取全局特征,全局特征与位置编码组合输入并行的全连接层,输出声音事件预测结果和到达方向预测结果。本发明实现了多个声源同时发声的分别定位,对混响和低信噪比环境具有鲁棒性。
技术关键词
多声道
卷积循环神经网络
卷积模块
定位方法
序列
空洞
多声源
门控循环单元
相位特征
加权损失函数
注意力机制
全局平均池化
转换器
网络优化
音频特征
估计算法
编码
系统为您推荐了相关专利信息
手写字母识别方法
轨迹特征
雷达
双层长短期记忆网络
信号特征提取
分布式光伏电站
优化调度方法
光伏发电功率预测
优化调度模型
优化调度策略
电池寿命预测方法
驾驶习惯数据
引入注意力机制
电池健康状态
电池剩余使用寿命