一种基于偏好优化的音频生成方法

正文

推荐专利

一种基于偏好优化的音频生成方法

申请号：CN202510571665

申请日期：2025-05-06

公开号：CN120452413A

公开日期：2025-08-08

类型：发明专利

摘要

本发明公开了一种基于偏好优化的音频生成方法，属于人工智能与音频生成技术领域，其包括如下步骤：S1、输入音频：采用音频VAE把任一音频变为音频特征；S2、输入文本描述：采用预训练模型提取文本特征；S3、特征拼接：将音频特征和文本特征拼接后输入大模型，并训练，生成第一阶段训练的音频大模型；S4、候选音频生成：输入音乐类的文本描述，经过第一阶段训练的音频大模型，生成N个音频；S5、相似度对比；S6、模型迭代；S7、音频生成。本发明通过两阶段训练框架，本发明在预训练阶段利用大规模公开数据学习音频生成基础能力，在微调阶段通过强化学习直接优化人类偏好指标。

技术关键词

音频生成方法音频特征预训练模型文本解码器生成技术音乐编码器连续型两阶段控制模块人类样本网格变量数据噪声视频

一种基于偏好优化的音频生成方法

站点导航

APP 下载