摘要
本申请实施例提供了一种语音合成方法、装置、设备和存储介质,接收用户输入的待合成语音的文本;将文本对应的音素序列输入语音合成模型中的预处理部分,得到中间向量;将维度规整后的中间向量输入多相正交镜像分析滤波器,得到分析信号;将分析信号输入语音合成模型中的耦合层,以对分析信号进行逆向变换得到逆变换信号;将逆变换信号输入多相正交镜像合成滤波器,得到合成信号;将维度逆规整后的合成信号输入语音合成模型中的解码器,根据语音波形,合成目标语音。本申请实施例通过在归一化流的耦合层中引入多相正交镜像滤波器,可以显著提高语音合成模型整体的稳定性和鲁棒性,进而提升应用归一化流技术合成的语音质量的稳定性。
技术关键词
高斯分布模型
语音
文本编码器
解码器
信号获取模块
正交镜像滤波器
波形
矩阵
机器可读介质
序列
上采样
处理器
输入模块
元素