摘要
本发明提供一种语音合成方法、装置、电子设备和存储介质,涉及语音技术领域,其中方法包括:将获取的待合成文本和情感属性输入语音合成模型中,得到语音合成模型输出的目标语音;其中,语音合成模型为基于第一样本语音对应的第一样本文本和第一样本语音对应的第一样本情感特征训练得到的,第一样本情感特征为将第一样本语音输入情感编码模型后得到的,情感编码模型为基于目标编码和第二样本情感特征的最小互信息损失训练得到的。本发明能够基于最小互信息损失训练得到情感编码模型,以使情感编码模型输出的情感特征中不包括音色和文本内容等不相关信息,使得语音合成模型能够实现对细粒度情感的控制,提高了语音合成的控制力。
技术关键词
情感特征
样本
语音解码网络
语音特征提取
文本
语音编码
语义特征
参数
非暂态计算机可读存储介质
电子设备
语音技术
处理器
风格
存储器
模板
对象
系统为您推荐了相关专利信息
降噪特征
噪声特征
对象
交叉注意力机制
文本生成图像
智能交互系统
查询意图
语音识别模型
声纹认证
客户
文本行
印章识别方法
印章识别装置
坐标
计算机设备