摘要
本发明涉及人工智能及语音合成技术领域,公开了一种情感语音合成方法、装置、计算机设备及可读存储介质,包括:获取待进行语音合成的目标文本,识别所述目标文本的情感向量表示;对所述情感向量表示进行情感风格预测,得到情感风格权重;基于预训练的声学模型,确定所述目标文本的音素嵌入序列,以及控制所述声学模型采用所述情感风格权重对所述音素嵌入序列进行调整,以使所述声学模型利用调整后的所述音素嵌入序列生成所述目标文本的情感语音。即使在没有专业音频素材或情感标注的情况下,也能获得具有高度情感表达力的语音输出,提升了模型的泛化能力。
技术关键词
样本
文本编码器
训练语言模型
风格
语音
序列
适配器
训练声学模型
解码器
情感类别
计算机设备
可读存储介质
误差
处理器
声码器
识别模块
存储器
系统为您推荐了相关专利信息
运维知识库
智能诊断模型
梯度提升决策树
关系网络
实体
组织检测方法
钛合金
深度学习模型
电子背散射衍射
样本
数据估计方法
神经网络模型
工业互联网技术
样本
节点特征