摘要
本发明提供一种语音合成模型训练、语音合成方法及装置,所述训练方法包括:获取样本文本的原始频谱图;基于初始合成模型,应用样本文本的语义信息,对原始频谱图进行降维映射,得到特征向量,并对特征向量进行上采样后,基于上采样后的特征向量合成得到样本语音,特征向量包括原始频谱图的关键信息,且特征向量的维度小于原始频谱图的维度;基于样本语音对应频谱图与原始频谱图之间的差异,对初始合成模型进行参数迭代,得到语音合成模型。本发明避免了传统语音合成模型训练过程中对中间态频谱图的显式生成,从而规避了由此产生的误差累积问题,提升了最终合成语音的质量。
技术关键词
模型训练方法
语音
样本
文本
上采样
参数
语义
非暂态计算机可读存储介质
随机噪声
模型训练装置
处理器
计算机程序产品
统计特征
存储器
电子设备
标签
误差