摘要
本申请实施例属于语音处理技术领域,应用于文本转语音场景中,涉及一种语音合成方法、装置、设备及其存储介质,通过获取合成参考语音和待进行语音合成的文本数据;将文本数据进行文本编解码处理,获得目标文本字符序列;将目标文本字符序列输入到训练完成的音素预测模型中,预测目标文本字符序列中每个字符分别对应的音素特征和发音起止时间位置;根据音素特征和发音起止时间位置对目标文本字符序列进行声学解码处理,获得目标输出语音。通过采用模型预测方式,预测出目标文本字符序列中每个字符分别对应的音素特征和发音起止时间位置,根据每个文本字符逐个解码,从而合成出目标输出语音,实现了快速高质量的进行语音合成输出。
技术关键词
字符
语音
文本处理器
发音
序列
Viterbi算法
嵌入位置信息
计算机可读指令
编解码
解码器
多头注意力机制
预测模型训练
规划
可读存储介质
动态
数据获取模块
编码