摘要
本发明提供语音生成模型的构建方法、装置、电子设备及可读介质,将预设的训练语音输入预设向量量化器,得到训练语音的训练语义离散特征;训练语义离散特征包含了训练语音的语言风格;获取训练语音对应的训练文本,并利用训练文本以及训练语义离散特征训练预设的自回归语音模型,得到语义离散特征生成模型;获取训练语义离散特征对应的训练梅尔频谱图;利用训练语义离散特征以及训练梅尔频谱图训练预设的最优传输条件流匹配模型,得到梅尔频谱图生成模型;基于梅尔频谱图生成模型和语义离散特征生成模型,构建语音生成模型。实现了通过单一语音生成模型实现多种语言风格的语音或方言语音生成,降低了标注成本,减轻了音频生成中产生的机械感。
技术关键词
离散特征
语音生成模型
语义
文本
模型训练模块
风格
通信接口
电子设备
处理器
路由器
存储器
音频
波形
介质
频率
计算机
程序
指令
系统为您推荐了相关专利信息
模型优化方法
应用程序编程接口
项目
图形处理器
语义