摘要
本申请公开了一种语音合成方法、装置、存储介质及电子设备,涉及人工智能技术领域,包括:首先获取待语音合成的目标文本;然后将所述目标文本输入到语音合成模型中,所述语音合成模型采用VITS模型架构作为基础架构,并采用Duration Predictor替换所述VITS模型架构中的对齐结构,所述语音合成模型包括Pitch Decoder;再利用所述Duration Predictor,获取所述目标文本对应的音素的目标时长,以及利用所述Pitch Decoder,获取所述音素的目标基频;最后根据所述目标时长和所述目标基频合成所述目标文本对应的目标语音,作为所述语音合成模型的输出结果。本申请的技术方案能够提高语音合成质量,改善文本转语音的效果。
技术关键词
样本
语音标签
音频解码器
训练集
计算机程序产品
文本编码器
电子设备
处理器
人工智能技术
变量
指标
生成方法
输入模块
可读存储介质
参数
系统为您推荐了相关专利信息
多性能预测方法
近β钛合金
XGBoost模型
物理特征参数
机器学习模型
多模态图像数据
表达式
图像配准系统
上采样
图像像素
强化学习方法
离线
随机梯度下降
策略更新
损失函数设计