摘要
本发明涉及语音处理技术领域,可应用于金融及医疗领域,公开了一种语言增强方法、装置、计算机设备及存储介质,方法包括:获取带噪声的输入语音信号;通过预训练的生成式音频编码器将带噪声的输入语音信号转换为噪声嵌入数据;通过去噪编码器对噪声嵌入数据进行去噪处理,得到干净嵌入数据;通过预训练的声码器将干净嵌入数据转换为增强后的目标语音信号。本发明有效提升增强后语音的自然度与说话人一致性,降低了对复杂噪声分布的建模难度,减少语音失真,同时大幅降低了模型参数量与训练复杂度,提升了推理速度,使其能在低资源环境下实现实时应用。
技术关键词
音频编码器
噪声语音
数据
语音特征
解码网络
计算机设备
信号时域波形
多层卷积网络
音频特征提取
转换单元
处理器
恢复算法
声谱
噪声特征
声码器
系统为您推荐了相关专利信息
风险预测模型
自动预测方法
数据
计算机执行指令
消除方法
屏幕共享
界面
共享方法
隐私保护功能
显示应用程序
隧道内部结构
仿真模型
风险评估方法
因子
隧道结构
舰船提取方法
注意力
残差模块
遥感影像特征
遥感影像数据