摘要
本申请实施例提供了一种语音合成方法和装置、电子设备及存储介质,属于语音合成技术领域,适用于金融科技领域。该方法包括:获取语音合成文本及目标音频数据;获取初始语音特征提取子模型、文本编码子模型及音频信号生成子模型;基于语音样本数据对初始语音特征提取子模型进行训练,得到目标语音特征提取子模型;基于目标语音特征提取子模型,对目标音频数据进行特征提取,得到目标音频特征向量;基于文本编码子模型,对语音合成文本进行文本编码,得到文本编码向量;基于目标音频特征向量,对文本编码向量进行向量映射,得到语音编码向量;基于音频信号生成子模型,对语音编码向量进行语音合成。本申请实施例能够提高合成语音特征的多样性。
技术关键词
语音特征提取
语音编码
编码向量
文本
音频编码
离散特征
数据
码字
声学特征
音频特征
电子设备
模型训练模块
可读存储介质
样本
特征提取模块
信号
声波
系统为您推荐了相关专利信息
智能审计方法
多模态
结构化业务数据
财会
多通道并行