摘要
本公开的各实施例的目的是提供一种语音合成方法、装置、设备、计算机程序产品和计算机程序存储介质。其中,语音合成系统根据输入文本,获取其对应的离散语义特征;将所述离散语义特征与所述输入文本的音频特征映射到同一特征空间,以将两者对齐;从对齐后的特征中提取所述输入文本对应的发音和韵律特征;将所述发音和韵律特征与参考音色特征转换为梅尔谱图特征;将所述梅尔谱图特征转换为输出语音。本公开的各实施例为了能实现高还原度的语音合成方案,选择与音色无关的中间声学特征来解耦音色学习和发音与韵律学习,通过领域迁移学习的手段来对更多复杂场景但高置信度的低采样率数据用于语音合成训练。
技术关键词
韵律特征
音色特征
语义特征
计算机程序存储介质
音频特征
发音
计算机程序指令
文本
采样率
语音
计算机可执行指令
计算机设备
零样本学习方法
计算机程序产品
数据
声学特征
声码器
存储器
处理器
系统为您推荐了相关专利信息
视频特征数据
音频特征数据
安防预警方法
瓶颈结构
安防预警系统