摘要
本公开提供了一种音乐生成方法、装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待转换的歌词文本和参考音频;将参考音频由原始音频空间映射到潜在空间,得到第一音频特征;基于作用在潜在空间的扩散模型,对第一音频特征执行多步加噪处理,得到噪声特征;在给定前置条件的情况下,基于扩散模型对噪声特征执行多步去噪处理,得到第二音频特征;其中,前置条件与该歌词文本和参考音频的总时长有关;将第二音频特征由潜在空间映射回原始音频空间,得到用于演唱该歌词文本的音乐作品。本公开简化了音乐生成过程中的用户输入,提高了音乐生成效率。
技术关键词
音乐生成方法
音频特征
噪声特征
文本
电子设备
交叉注意力机制
可执行程序代码
编码器
处理器
可读存储介质
人工智能技术
计算机程序产品
解码模块
编码模块
生成装置
采样率
解码器