摘要
本发明涉及语音处理技术领域,可应用于医疗健康及金融科技等业务场景中,公开了一种基于多尺度特征学习的语音增强方法,包括:对输入音频信号进行分帧处理,提取梅尔频谱特征,利用多尺度卷积神经网络提取频域特征,并对其进行编码降维;通过深度残差网络抑制噪声,生成增强后的音频特征,并采用非自回归生成模型进行特征转换,最终利用生成对抗网络重构目标语音波形。本发明通过多尺度卷积神经网络提取语音频域特征,提高不同频段的特征表达能力;通过深度残差网络进行噪声抑制,增强语音信号的纯净度;通过非自回归生成模型优化特征转换,提高语音增强的建模效率;通过生成对抗网络重构目标语音波形,提高生成语音的自然度和清晰度。
技术关键词
多尺度特征学习
多尺度卷积神经网络
频域特征
频谱特征
语音
生成对抗网络
音频特征
深度残差网络
波形
时序特征
上下文特征
短时傅里叶变换
生成多尺度
注意力
噪声抑制模块
非线性