基于多尺度特征学习的语音增强方法、装置、设备及介质

AITNT
正文
推荐专利
基于多尺度特征学习的语音增强方法、装置、设备及介质
申请号:CN202510417793
申请日期:2025-04-03
公开号:CN120220712A
公开日期:2025-06-27
类型:发明专利
摘要
本发明涉及语音处理技术领域,可应用于医疗健康及金融科技等业务场景中,公开了一种基于多尺度特征学习的语音增强方法,包括:对输入音频信号进行分帧处理,提取梅尔频谱特征,利用多尺度卷积神经网络提取频域特征,并对其进行编码降维;通过深度残差网络抑制噪声,生成增强后的音频特征,并采用非自回归生成模型进行特征转换,最终利用生成对抗网络重构目标语音波形。本发明通过多尺度卷积神经网络提取语音频域特征,提高不同频段的特征表达能力;通过深度残差网络进行噪声抑制,增强语音信号的纯净度;通过非自回归生成模型优化特征转换,提高语音增强的建模效率;通过生成对抗网络重构目标语音波形,提高生成语音的自然度和清晰度。
技术关键词
多尺度特征学习 多尺度卷积神经网络 频域特征 频谱特征 语音 生成对抗网络 音频特征 深度残差网络 波形 时序特征 上下文特征 短时傅里叶变换 生成多尺度 注意力 噪声抑制模块 非线性
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号