摘要
本发明适用于音乐生成技术领域,提供了一种基于旋律引导的文字生成音乐算法,其方法包括:通过公共数据集获取音乐波形、旋律和文本描述这三种模态的数据后编码;将编码后得到的音频表征、旋律表征和文本表征对齐在统一向量空间中;以文本表征作为查询条件在构建的旋律向量数据库中检索目标旋律向量表征;将目标旋律向量表征和文本表征作为融合条件引导扩散过程,生成符合文本描述和旋律引导的潜在音乐表征;利用变分自动解码器中的解码器将所述潜在音乐表征进行初步解码为目标梅尔频谱图;通过声码器将所述目标梅尔频谱图转换为可播放的音乐,最终生成了符合文本描述且旋律优美的高质量可播放音乐。
技术关键词
文本
音频
多层感知器
批量数据
解码器
音乐生成技术
变分自动编码器
样本
表达式
声码器
神经网络结构
梯度下降算法
噪声预测
波形
参数
系统为您推荐了相关专利信息
去混响方法
混响信号
时序特征
卷积特征
滤波器系数
深度学习网络
三维模型
手术机器人
导航方法
多模态图像信息