摘要
本申请涉及音频处理与深度学习技术领域,公开了跨用户歌唱风格迁移的深度神经网络训练系统,包括:数据预处理模块,用于获取并预处理源歌手和目标歌手的歌唱音频数据,通过短时傅里叶变换生成梅尔频谱表示;内容编码模块,通过深度神经网络基于源歌手的音频数据提取内容特征,生成源歌手的内容表示,所述内容表示包括歌词、旋律和音高的信息;风格编码模块,通过深度神经网络基于目标歌手的音频数据提取风格特征,生成目标歌手的风格表示。本发明通过引入高保真生成对抗网络和多任务学习策略,显著提高了音频风格迁移的质量、准确性和一致性,实现了源歌手内容与目标歌手风格的精准结合,生成的音频更自然、清晰且符合目标风格。
技术关键词
深度神经网络训练
风格
编码模块
短时傅里叶变换
生成对抗网络
音频优化单元
多任务学习策略
跨用户
音频特征
频谱特征提取
解码单元
时域特征提取
感知损失函数
频域特征提取
数据
损失函数优化
深度学习技术