基于潜在扩散模型的TTS生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510670789

申请日期：2025-05-22

公开号：CN120452414A

公开日期：2025-08-08

类型：发明专利

摘要

本发明提供了一种基于潜在扩散模型的TTS生成方法、装置、设备及介质，通过获取目标文本序列，将目标文本序列输入至文本编码器进行编码，生成上下文特征向量；将上下文特征向量通过潜在空间映射模块进行降维处理，得到第一低维特征向量；将第一低维特征向量输入至潜在扩散模型中的目标去噪子网络中进行去噪处理，生成语音特征；利用波形生成器对语音特征进行转换，生成目标语音，从而通过在潜在空间对上下文特征向量进行降维处理，减少了高维空间计算量，提升了语音生成效率；并通过潜在扩展模型的去噪特性使得生成的语音更加自然和平滑，减少了噪声和失真，提高了语音生成质量，同时能够灵活适应不同语言和语境的生成需求。

技术关键词

语音特征生成方法文本编码器噪声数据波形序列相位恢复算法网络音频计算机设备生成语音样本注意力生成装置处理器

基于潜在扩散模型的TTS生成方法、装置、设备及介质

站点导航

APP 下载