摘要
本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,属于语音合成技术领域,适用于金融科技和医疗领域。该方法包括:基于特征编码子模型,对语音韵律草图进行特征提取,得到韵律特征向量;基于韵律特征向量,对目标文本进行文本编码,得到文本向量;基于特征编码子模型,对文本向量及韵律特征向量进行向量拼接,得到拼接特征向量;基于韵律控制子模型及韵律特征向量,进行韵律轮廓预测,得到韵律特征优化向量;基于韵律控制子模型及韵律特征优化向量,对拼接特征向量进行韵律调节,得到目标特征向量;基于语音生成子模型,对目标特征向量进行音频生成。本申请实施例能够生成更加精准的特定情感或风格。
技术关键词
韵律特征
文本
韵律模式
语义向量
电子设备
样本
轮廓
可读存储介质
音频
特征提取模块
语音编码
数据获取模块
拼接模块
模式识别
编码模块
处理器