摘要
本发明提供一种TTS系统、语音合成方法、装置、电子设备和存储介质。所述语音合成方法包括获取目标文本对应的音素序列;以及,提取基准语音的条件特征并将所述基准语音处理为离散化的编码表示,所述条件特征包括声学特征和/或语义特征;将所述音素序列、所述条件特征和所述编码表示输入预训练的语音合成模型,并获取所述语音合成模型输出的匹配于所述目标文本的目标语音;其中,所述语音合成模型包括神经编解码语言模型及其连接的音频解码器,所述神经编解码语言模型包含自回归模块且不包含非自回归模块。
技术关键词
语音
编解码
音频解码器
样本
声码器
TTS系统
声学特征
基准
文本
语义特征
序列
模块
矢量量化算法
电子设备
处理器
发音
指令
高层次
输入端
可读存储介质