摘要
本发明提供语音生成模型的构建方法、装置、电子设备及可读介质,将预设的训练语音输入预设向量量化器,得到训练语音的训练语义离散特征;训练语义离散特征包含了训练语音的语言风格;获取训练语音对应的训练文本,并利用训练文本以及训练语义离散特征训练预设的自回归语音模型,得到语义离散特征生成模型;获取训练语义离散特征对应的训练梅尔频谱图;利用训练语义离散特征以及训练梅尔频谱图训练预设的最优传输条件流匹配模型,得到梅尔频谱图生成模型;基于梅尔频谱图生成模型和语义离散特征生成模型,构建语音生成模型。实现了通过单一语音生成模型实现多种语言风格的语音或方言语音生成,降低了标注成本,减轻了音频生成中产生的机械感。
技术关键词
离散特征
语音生成模型
语义
文本
模型训练模块
风格
通信接口
电子设备
处理器
路由器
存储器
音频
波形
介质
频率
计算机
程序
指令
系统为您推荐了相关专利信息
协同过滤算法
深度学习算法
标签体系
标签特征
融合协同过滤
实体
自然语言
样本
计算机程序代码
机器可读指令
特征提取模块
图像编码器
图文
语义特征
网格特征提取
强化学习代理
节点特征
语义
Sigmoid函数
加权特征