摘要
本发明公开了一种基于融合空间特征的多通道语音增强方法,首先从带噪多通道语音中分别提取多通道复频谱特征和融合空间特征,再将提取的多通道复频谱特征和融合空间特征输入深度神经网络进行处理并设定处理目标为理想复值比率掩蔽,再构建基于复卷积编码器解码器结构的深度复卷积循环语音增强网络,再利用深度复卷积循环语音增强网络对多通道复频谱特征和融合空间特征进行处理,输出预测复值比率掩蔽。本发明充分整合光谱信息、方向特征、通道间特征和相关系数特征,并对动态声源进行空间建模,使得网络对于语音信号的理解和处理能力远超传统方法,能够有效应对复杂多变的语音场景,有效地提升静态场景和动态场景下的语音增强效果。
技术关键词
多通道
频谱特征
语音
比率
短时傅里叶变换
卷积编码器
解码器结构
深度神经网络
编码器模块
密集特征
多分辨率
波形
麦克风
相位特征
方位角
动态场景
索引
频率
系统为您推荐了相关专利信息
声纹特征
矫正方法
对象
可读存储介质
语音识别功能
延迟控制装置
逻辑处理单元
监测单元
链路
多通道
驾驶员监测系统
数据采集模块
显示端
语音传输功能
人脸特征检测
多元智能融合
智能语音终端
自然灾害
分析方法
高性能处理器