摘要
本申请涉及一种语音生成模型的训练方法、语音生成方法及相关装置,该方法包括:获取多个训练样本,其中,每个训练样本包括文本样本和音频样本;获取各训练样本中文本样本对应的音素序列和音频样本对应的音频特征分布参数;依次将各训练样本对应的音素序列和音频特征分布参数输入至待训练模型中进行训练,得到各训练样本对应的预测音素持续时长和预测音频特征分布参数,在预测音素持续时长和预测音频特征分布参数满足预设条件的情况下,对待训练模型停止训练,得到语音生成模型。这样,无需先对新说话对象的音频进行训练后再生成语音,因而降低了新说话对象语音扩展的成本和时间周期,使得新说话对象的语音扩展实现更加简单,应用场景更广。
技术关键词
音频特征
语音生成模型
语音生成方法
参数
文本
编码器
对象
序列
通信接口
噪声样本
采样点
生成语音
存储器
处理器
注意力