摘要
本申请实施例公开了音频表征模型的训练方法、音频生成方法及相关产品,此训练方法采用包含语义文本、旋律及音频所属事件等多方音信的标注数据对音频表征模型进行训练,可促使音频表征模型因学习到音频的文本信息分别与旋律及音频所属事件之间的配对关系,保障预测出的音频表征对音频信息的提取或概括多元化且全面,从而方便后续良好地实现对所需音频的生成控制。此外,可通过音频表征模型预测出的前序音频表征、起提示作用的音频描述语,促使音频预测模型因学习到音频的文本信息分别与旋律及音频所属事件之间的配对关系,便能通过输入文本预测出待测音频的音频表征,从而方便实现对所需音频的生成控制,例如方便生成主副歌差异性准确的歌曲。
技术关键词
音频生成方法
语义
文本
样本
计算机程序产品
编码器
可读存储介质
处理器
指令
关系
存储器
数据
参数
时序
复杂度
电子设备
条目
分词