摘要
本公开的实施例提供了一种用于语音合成的方法、装置、设备和可读介质。根据本公开的实施例,利用预测器模型对目标文本对应的音素嵌入序列执行音素预测,以获取预测音素序列。基于语音生成任务的类型来确定对参考音频的量化声学特征的遮蔽处理,以获取遮蔽声学特征。利用编码器模型,对遮蔽声学特征执行编码操作,以获取遮蔽特征码。利用解码器模型,基于遮蔽特征码和预测音素序列执行解码操作,以获取第一预测特征码。至少基于第一预测特征码生成目标文本对应的语音波形。以此方式,实现零样本语音合成。同时使模型能够同时实现语音克隆和语音编辑任务。
技术关键词
声学特征
预测特征
语音
序列
解码器模型
文本
音频
波形
编辑
编码器
处理单元
语义特征提取
融合特征
双向变换器
遮蔽模块
样本
解码模块
系统为您推荐了相关专利信息
纤溶酶抑制剂
细胞炎症模型
动物炎症
生物医药技术
序列
司机
行驶路线数据
LSTM模型
动态变化模型
分析模块