摘要
本发明提供一种高表现力歌唱声音合成模型训练方法、合成方法及装置,获取歌词文本以及由真实歌声预测得到的乐谱序列;将歌词文本转换为音素信息,从歌声音频数据中提取歌声的物理信息并分析,得到强度信息;将音素信息和乐谱序列的属性信息输入文本编码器生成文本嵌入序列,由时长预测器确定每个字的持续时长,将文本嵌入序列和持续时长输入长度约束器生成语音表征;将语音表征输入基频解码器和梅尔解码器生成基频和梅尔谱;将基频、梅尔谱和语音表征相加得到混合嵌入向量,将混合嵌入向量输入Transformer和连续语音单元表征模块生成连续语音单元向量,由声码器合成预测歌声。本发明提供的方法对各属性进行细粒度建模,避免耦合,合成高质量歌声。
技术关键词
模型训练方法
文本编码器
信号处理模块
谐波
解码器
序列
生成语音
声码器
强度
计算机程序产品
周期性
音频
物理
可读存储介质
处理器
数据
指令
系统为您推荐了相关专利信息
图像生成模型
联合损失函数
图像重建方法
图像解码器
编码器
指数
模型训练方法
生成训练样本
管理系统
XGBoost模型