基于多尺度特征学习的语音增强方法、装置、设备及介质

正文

推荐专利

申请号：CN202510417793

申请日期：2025-04-03

公开号：CN120220712A

公开日期：2025-06-27

类型：发明专利

摘要

本发明涉及语音处理技术领域，可应用于医疗健康及金融科技等业务场景中，公开了一种基于多尺度特征学习的语音增强方法，包括：对输入音频信号进行分帧处理，提取梅尔频谱特征，利用多尺度卷积神经网络提取频域特征，并对其进行编码降维；通过深度残差网络抑制噪声，生成增强后的音频特征，并采用非自回归生成模型进行特征转换，最终利用生成对抗网络重构目标语音波形。本发明通过多尺度卷积神经网络提取语音频域特征，提高不同频段的特征表达能力；通过深度残差网络进行噪声抑制，增强语音信号的纯净度；通过非自回归生成模型优化特征转换，提高语音增强的建模效率；通过生成对抗网络重构目标语音波形，提高生成语音的自然度和清晰度。

技术关键词

多尺度特征学习多尺度卷积神经网络频域特征频谱特征语音生成对抗网络音频特征深度残差网络波形时序特征上下文特征短时傅里叶变换生成多尺度注意力噪声抑制模块非线性

基于多尺度特征学习的语音增强方法、装置、设备及介质

站点导航

APP 下载