语音生成模型的训练方法、语音生成方法及相关装置

正文

推荐专利

申请号：CN202410815194

申请日期：2024-06-21

公开号：CN118840995A

公开日期：2024-10-25

类型：发明专利

摘要

本申请涉及一种语音生成模型的训练方法、语音生成方法及相关装置，该方法包括：获取多个训练样本，其中，每个训练样本包括文本样本和音频样本；获取各训练样本中文本样本对应的音素序列和音频样本对应的音频特征分布参数；依次将各训练样本对应的音素序列和音频特征分布参数输入至待训练模型中进行训练，得到各训练样本对应的预测音素持续时长和预测音频特征分布参数，在预测音素持续时长和预测音频特征分布参数满足预设条件的情况下，对待训练模型停止训练，得到语音生成模型。这样，无需先对新说话对象的音频进行训练后再生成语音，因而降低了新说话对象语音扩展的成本和时间周期，使得新说话对象的语音扩展实现更加简单，应用场景更广。

技术关键词

音频特征语音生成模型语音生成方法参数文本编码器对象序列通信接口噪声样本采样点生成语音存储器处理器注意力

语音生成模型的训练方法、语音生成方法及相关装置

站点导航

APP 下载