摘要
本申请实施例提供了一种语音合成方法、装置、设备和存储介质,接收待合成语音的目标文本;将所述目标文本对应的目标音素序列输入语音合成模型,得到所述语音合成模型输出的所述目标文本对应的目标语音;所述语音合成模型采用后验编码器、旁路引导模块、训练录音以及训练文本训练得到;所述旁路引导模块用于生成引导信息;所述引导信息用于引导所述后验编码器,以使所述后验编码器提取所述训练录音对应的线性谱中的骨干语音信息,所述骨干语音信息用于对所述语音合成模型进行训练。本申请实施例有助于提升语音合成模型整体训练效果,有效解决了模型合成的目标语音发音不准确、音质波动的问题,目标语音的清晰度和自然度得以增强。
技术关键词
语音
生成引导信息
文本编码器
旁路
模块
高斯分布模型
线性
解码器
序列
神经网络参数
矩阵
机器可读介质
发音
处理器
电子设备
时序
存储器