摘要
本发明公开了一种基于用户通俗口语表达的端到端歌曲生成方法和系统,包括:获取用户输入的通俗口语表达文本并将其作为描述文本提示词;采用大语言模型根据描述文本提示词生成具有乐段结构的歌词序列;采用生成模型基于具有乐段结构的歌词序列进行去噪处理来生成表示音乐的潜在概率分布,并基于潜在概率分布在VAE模型的音频数据空间中进行搜索得到歌词序列对应的音频分布,音频分布中的每个点表示一段音频,将音频分布转换成频谱图后,将频谱图转换为歌曲的音频数据,这样在充分理解的口语化表达的基础上创建歌曲,并将用户的通俗口语表达与创建的歌曲进行匹配。
技术关键词
生成音频数据
歌曲生成方法
生成系统
序列
大语言模型
音乐
文本
生成噪声
标签
数据压缩编码
解码器
注意力
编码器
随机噪声
模块
样本
采样器