摘要
本发明公开了一种模型训练方法、音频生成方法、电子设备及存储介质。该方法包括:从当前训练数据集中获取一组训练数据,训练数据包括源音频数据及其对应的文本数据,源音频数据包括原始声学特征;将原始声学特征和文本数据输入生成网络,生成目标音频数据;将目标音频数据和源音频数据输入鉴别网络,确定损失函数;若满足训练结束条件,则将生成网络作为音频生成模型的一个与当前声源匹配的子模型;若不满足训练结束条件,则根据损失函数,调节生成网络和鉴别网络的参数,并从当前训练数据集中重新获取一组训练数据,返回执行将原始声学特征和文本数据输入生成网络,生成目标音频数据的步骤。本方案能够生成多种音色且贴近自然语言的音频。
技术关键词
模型训练方法
矢量量化
声学特征
音频生成方法
数据
量化器
文本
网络
码字
均值聚类算法
电子设备
字典
可读存储介质
计算机
参数
处理器通信
自然语言
编码