摘要
本说明书实施例提供一种语音合成方法,包括:获取长参考音频和对应的参考文本。将长参考音频和参考文本输入语音合成系统进行目标处理,该语音合成系统包括,对齐模块和编码模块。上述目标处理包括:利用对齐模块,将长参考音频和参考文本在时间维度上对齐,得到参考文本对应的第一音素序列中各参考音素对应的音频片段。利用编码模块,基于各参考音素及其对应的音频片段,确定预设的词表中各个音素对应的各发音表征。从各个音素对应的各发音表征中,确定出目标文本对应的第二音素序列中各目标音素对应的各目标发音表征。基于各目标音素对应的各目标发音表征,确定目标文本对应的目标音频。
技术关键词
文本
发音
音频
对齐模块
编码模块
语音
序列
声码器
扩展算法
处理单元
编解码器
网络
计算机
可读存储介质
存储器
处理器
场景
系统为您推荐了相关专利信息
数据检索系统
网关
检索方法
存储库
循环神经网络模型
图像生成单元
特征提取单元
游戏个性化
控制模块
记录单元
三维建筑模型
显示信息
地图界面
兴趣点
三维建筑物模型