摘要
本发明涉及语音合成技术领域,公开了一种基于提示词的语音合成系统、训练方法及推理方法,该系统包括全局样式获取模块和语音合成模块;全局样式获取模块包括源风格提示模块和目标风格提示模块,源风格提示模块用于对输入的音频的直谱图进行风格提取,得到源说话人风格向量,目标风格提示模块用于根据输入的提示词进行特征抽取,得到目标说话人风格向量;语音合成模块用于根据输入的音素和目标说话人风格向量进行语音合成生成目标音频波形或者进行语音克隆生成目标音频波形。本发明可以将风格信息融入到语音合成模块中,不需要指定说话者唯一标识符,只需根据文本描述,就可生成具有提示风格的语音,并且能实现语音克隆。
技术关键词
风格
系统训练方法
全局样式
多任务分类
推理方法
解码
音频编码
模块
后验概率
注意力
文本
生成语音
波形
可读存储介质
指令
计算机程序产品
系统为您推荐了相关专利信息
模糊隶属度函数
节点
电站锅炉
损失评估方法
张量分解方法