摘要
本公开提供了一种音频处理方法、装置、电子设备及存储介质,属于人工智能技术领域。本公开提供的音频处理方案,基于零样本歌声变换实现了修音功能。其中,零样本歌声变换是指将源音频中的唱法和唱功(比如音准、节奏和演唱技巧等)复制给目标对象,同时将音色变换为目标对象的音色,而无需目标对象任何训练数据。换言之,输出的目标音频是结合了目标对象的音色以及源音频中唱法和唱功的歌声干声,该干声听起来是目标对象输入的声音,但是在唱法和唱功上不同于目标对象输入的歌唱水平,显著改善了用户输入的歌唱效果,从而达到了修音效果。由于该方案能够帮助用户实现更接近原声的歌唱表达,因此能够显著提升用户发布音乐作品的意愿。
技术关键词
音频
编码器
变量
样本
对象
电子设备
解码器
频谱特征
交叉注意力机制
语义特征提取
模块
演唱技巧
可执行程序代码
噪声
处理器
可读存储介质
人工智能技术
计算机程序产品