摘要
本发明涉及语音信号处理技术领域,具体提供一种与阵列几何无关的语音分离方法、装置及系统。该方法适用于多种麦克风阵列结构,采用虚拟麦克风估计机制生成增强空间信息密度的虚拟通道信号,并结合频谱–时间特征与空间方向特征,通过空间字典学习与注意力融合模块提取多模态表示。所提特征进一步输入分层双路径建模网络,在时间轴与频率轴上分别建模全局依赖关系,从而实现多说话人语音的高精度分离。所述系统具备良好的阵列结构自适应性,能够适应通道数变化与阵列形状差异,在远程会议、语音识别前端、车载语音处理等场景中均具有良好应用价值。
技术关键词
麦克风阵列采集
短时傅里叶变换
空间特征提取
麦克风阵列结构
语音信号处理技术
二维卷积神经网络
会议系统终端
语音信号提取
双路径网络
发言者
字典
融合特征
注意力
分层
多通道
系统为您推荐了相关专利信息
滚动轴承
智能生成方法
多层感知器
数据驱动模型
神经网络模型
强化学习算法
分阶段训练方法
控制系统
深度学习技术
数据处理模块
轨道交通广播
信号识别模型
矩阵
数据
梅尔频率倒谱系数
布里渊光时域反射测量方法
长短记忆神经网络
注意力机制
脉冲光
傅里叶变换处理