摘要
本申请公开了一种语音合成方法、装置和电子设备,属于语音合成技术领域。所述方法包括:获取自然语言表达的待处理文本;将待处理文本分别输入至已训练的韵律提取模型和情感分类模型,获得韵律提取模型对待处理文本进行韵律提取后输出的目标韵律信息,以及情感分类模型对待处理文本进行情感类别提取后输出的情感类别分布;将待处理文本、目标韵律信息以及情感类别分布输入至已训练的语音合成模型,获得语音合成模型输出的目标语音波形;其中,目标韵律信息包括为待处理文本中的每个文本单元预测的韵律类别;情感类别分布包括待处理文本在各个情感类别下的预测概率,提高了生成语音的自然性和流畅性,以及实现合成语音的多样化情感表达。
技术关键词
情感类别
情感分类模型
文本
编码器模块
语音
序列
解码器
样本
变量
韵律特征
融合特征
自然语言
情感特征
多头注意力机制
波形
采样器
标签
电子设备