摘要
本申请实施例提供一种基于潜在扩散模型的语音合成方法、装置、服务器及存储介质,该方法包括:获取待合成的目标文本;根据目标文本,确定语音情感特征和目标时长信息;通过预设的目标语音合成模型中的神经网络音频编码器,对目标文本进行编码处理,得到第一隐向量;通过残差向量量化器,对第一隐向量进行量化压缩处理,得到第二隐向量;对语音情感特征的向量表示、目标时长信息的向量表示和第二隐向量进行融合处理,得到融合隐向量;通过潜在扩散模型,对融合隐向量进行逆向扩散处理,得到目标隐向量;通过神经网络音频解码器,对目标隐向量进行解码处理,得到合成语音。本申请提高了合成语音的自然度和质量,使得合成语音更加贴近真实的语音。
技术关键词
语音
情感特征
音频解码器
文本
音频编码器
神经网络模型
样本
服务器
处理器
解码模块
编码模块
存储器
计算机
介质
参数
系统为您推荐了相关专利信息
图像生成模型
关键词
嵌入特征
图像解码器
文本编码器
票据
信息抽取模型
图像翻译方法
专用模型
翻译模型训练
自动评测方法
失语症
语法特征
语义特征
特征提取器