摘要
本申请公开了一种音色韵律定制的语音合成方法及装置,获取韵律数据集和待合成文本,根据韵律数据集的数据量确定对应的语音合成方式,若数据量对应的语音合成方式为第一语音合成方式,通过快速定制语音合成模型对待合成文本进行语音合成,快速定制语音合成模型通过融合后的音色克隆模型得到的克隆后的提示词音频,将克隆后的提示词音频输入至基于提示词的语音合成模型来实现,若数据量对应的语音合成方式为第二语音合成方式,确定韵律数据集的韵律,并根据韵律数据集的韵律匹配对应的精细定制语音合成模型,通过精细定制语音合成模型对待合成文本进行语音合成,精细定制语音合成模型通过克隆后的韵律数据集对基础的语音合成模型进行训练得到。
技术关键词
定制语音
音频
数据
文本
音色特征
情绪识别模型
语音特征提取
损失函数优化
序列
基础
输入模块
矩阵
批量
参数