摘要
本申请公开了一种音频生成模型的训练方法、装置及电子设备,属于人工智能技术领域。方法包括:通过神经网络模型编码样本音频得到至少两个第一样本特征,第i个第一样本特征表征按照第i个时间尺度切分样本音频后得到的各个音频段的特征信息;通过神经网络模型基于至少两个第一样本特征,生成重构音频;通过样本音频和重构音频训练神经网络模型,得到音频生成模型,音频生成模型用于基于第一音频生成第二音频。由于不同的第一样本特征反映样本音频在不同时间尺度上的信息,使得各个第一样本特征的表征能力更强,基于此,可以根据各个第一样本特征生成准确性较高的重构音频,使得基于重构音频可以训练得到准确性更高的音频生成模型。
技术关键词
样本
音频特征
重构
量化器
编码器
编码模块
电子设备
训练神经网络模型
解码器
计算机程序产品
可读存储介质
上采样
人工智能技术
处理器
训练装置