摘要
本发明涉及人工智能技术领域,尤其涉及一种训练方法、语音合成方法、装置、设备及介质。获取训练样本组包括待合成语音的文本嵌入信息、参考语音的参考情感特征和参考音色特征、语种嵌入信息与目标语音,将文本嵌入信息、参考情感特征、参考音色特征与语种嵌入信息输入至初始语音合成模型中,输出预测语音,根据预测语音与目标语音,计算目标损失,根据目标损失,对初始语音合成模型进行训练,得到训练好的语音合成模型。将参考语音的情感特征与音色特征,输入至初始语音合成模型中,即将情感特征与音色特征嵌入到模型中,使训练好的语音合成模型结合对应说话人的情感与音色,输出更加自然、生动,更具表现力的合成语音。
技术关键词
编码特征
语音
音色特征
情感特征
频谱特征
文本
流解码器
对齐模块
编码器
训练装置
融合特征
计算机设备
输出模块
字符
支路
可读存储介质
人工智能技术
处理器
声码器
系统为您推荐了相关专利信息
时空融合特征
编码器特征
信号提取方法
编码器模块
远程光电容积描记
电网波形畸变
电能计量方法
电流
电能计量准确性
指数
景区智能讲解
多模态交互
问答系统
智能眼镜
场馆
多模态数据融合
智能管理系统
异构传感器网络
智能交互终端
三维可视化引擎