摘要
本发明公开了一种基于偏好优化的音频生成方法,属于人工智能与音频生成技术领域,其包括如下步骤:S1、输入音频:采用音频VAE把任一音频变为音频特征;S2、输入文本描述:采用预训练模型提取文本特征;S3、特征拼接:将音频特征和文本特征拼接后输入大模型,并训练,生成第一阶段训练的音频大模型;S4、候选音频生成:输入音乐类的文本描述,经过第一阶段训练的音频大模型,生成N个音频;S5、相似度对比;S6、模型迭代;S7、音频生成。本发明通过两阶段训练框架,本发明在预训练阶段利用大规模公开数据学习音频生成基础能力,在微调阶段通过强化学习直接优化人类偏好指标。
技术关键词
音频生成方法
音频特征
预训练模型
文本
解码器
生成技术
音乐
编码器
连续型
两阶段
控制模块
人类
样本
网格
变量
数据
噪声
视频