摘要
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、装置、电子设备及可读存储介质,获取待合成语音的目标文本和一个随机采样噪声;将目标文本输入训练好的目标语音合成模型的文本特征提取模块,确定出目标文本的文本特征;目标语音合成模型还包括文本特征编码模块和语音生成模块;将文本特征和随机采样噪声输入文本特征编码模块,确定出文本特征对应的音频特征的潜在变量;将潜在变量输入语音生成模块,生成潜在变量对应的音频信号,并确定为与目标文本相匹配的目标合成语音。这样,通过训练好的语音合成模型,可以直接将目标文本的文本特征对应的音频特征的潜在变量转换为与目标文本相匹配的目标合成语音,提高了语音合成的合成效率。
技术关键词
文本
语音
音频特征
编码模块
特征提取模块
样本
变量
数据转换模块
音频编码
数据对齐模块
语义特征提取
机器可读指令
噪声
电子设备
矩阵
重构
时序
系统为您推荐了相关专利信息
预训练模型
视频数据处理方法
跨模态
时间段
样本
智能生成方法
室内空间
关键词提取模型
客户
文本
能源
大语言模型
决策生成方法
强化学习算法
数据
电弧检测方法
电弧检测模型
电弧检测系统
电磁波传感器
数据