摘要
本申请提出的语音合成方法、语音合成装置、电子设备及存储介质,涉及人工智能技术领域,适用于金融科技领域及医疗健康领域。该方法包括:对目标语音数据进行音色提取,得到目标音色特征;对源语音数据进行特征提取,得到源语言内容特征;对源语音数据进行风格提取,得到源初始风格特征;通过风格编码器对源初始风格特征进行风格编码,得到源增强风格特征;通过风格编码器对源增强风格特征、源语言内容特征以及目标音色特征进行注意力编码,得到目的编码语音特征;对源增强风格特征、目的编码语音特征以及目标音色特征进行语音解码,得到目标合成语音数据。本申请能够提高语音合成的音色一致性,且提高语音合成的自然性。
技术关键词
风格
音色特征
编码器
样本
语音特征
数据
语音编码
注意力参数
标签
电子设备
编码模块
非线性
解码
特征提取模块
人工智能技术
医疗健康
系统为您推荐了相关专利信息
多源异构数据
异构数据语义
语义特征
对齐方法
无监督特征提取
电池故障诊断
储能电站
电池单体
电池组
电池运行状态
故障检测模型
故障预测方法
闸机
参数
计算机可执行指令
智能评估模型
负荷
神经网络参数
电力系统
构建鲁棒