摘要
本公开涉及一种语音合成方法及装置,其中,该方法包括获取待合成文本;对所述待合成文本进行音素转换,得到第一音素序列,所述第一音素序列中包括至少一个音素及所述至少一个音素所在音节的音调;将所述第一音素序列中音素与音调进行解耦,并基于解耦后的第二音素序列提取所述待合成文本的音素特征;其中,所述第二音素序列中包括所述至少一个音素;在音节维度对所述待合成文本进行文本编码,提取出所述待合成文本的语义特征;对所述语义特征及所述音素特征进行融合处理,并基于融合后的特征生成语音。通过本公开,合成的语音不仅发音准确,而且韵律自然,保证了合成的语音在自然度、韵律和语义一致性方面达到预期效果。
技术关键词
文本
序列
生成语音
持续时间模型
编码
语义特征提取
特征提取模块
计算机程序产品
字符
处理器
词典
可读存储介质
符号
存储器
发音
电子设备