摘要
本发明提供了一种基于潜在扩散模型的TTS生成方法、装置、设备及介质,通过获取目标文本序列,将目标文本序列输入至文本编码器进行编码,生成上下文特征向量;将上下文特征向量通过潜在空间映射模块进行降维处理,得到第一低维特征向量;将第一低维特征向量输入至潜在扩散模型中的目标去噪子网络中进行去噪处理,生成语音特征;利用波形生成器对语音特征进行转换,生成目标语音,从而通过在潜在空间对上下文特征向量进行降维处理,减少了高维空间计算量,提升了语音生成效率;并通过潜在扩展模型的去噪特性使得生成的语音更加自然和平滑,减少了噪声和失真,提高了语音生成质量,同时能够灵活适应不同语言和语境的生成需求。
技术关键词
语音特征
生成方法
文本编码器
噪声数据
波形
序列
相位恢复算法
网络
音频
计算机设备
生成语音
样本
注意力
生成装置
处理器