一种基于偏好优化的音频生成方法

AITNT
正文
推荐专利
一种基于偏好优化的音频生成方法
申请号:CN202510571665
申请日期:2025-05-06
公开号:CN120452413A
公开日期:2025-08-08
类型:发明专利
摘要
本发明公开了一种基于偏好优化的音频生成方法,属于人工智能与音频生成技术领域,其包括如下步骤:S1、输入音频:采用音频VAE把任一音频变为音频特征;S2、输入文本描述:采用预训练模型提取文本特征;S3、特征拼接:将音频特征和文本特征拼接后输入大模型,并训练,生成第一阶段训练的音频大模型;S4、候选音频生成:输入音乐类的文本描述,经过第一阶段训练的音频大模型,生成N个音频;S5、相似度对比;S6、模型迭代;S7、音频生成。本发明通过两阶段训练框架,本发明在预训练阶段利用大规模公开数据学习音频生成基础能力,在微调阶段通过强化学习直接优化人类偏好指标。
技术关键词
音频生成方法 音频特征 预训练模型 文本 解码器 生成技术 音乐 编码器 连续型 两阶段 控制模块 人类 样本 网格 变量 数据 噪声 视频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号