音频生成的方法、装置、存储介质、电子设备和程序产品

正文

推荐专利

申请号：CN202510821684

申请日期：2025-06-19

公开号：CN120340507B

公开日期：2025-09-02

类型：发明专利

摘要

本公开实施例公开了一种音频生成的方法、装置、存储介质、电子设备和程序产品，将获取的音频生成任务的引导信息进行编码，得到所述引导信息的隐空间表达；基于扩散模型，利用混合引导策略和所述引导信息的隐空间表达，逐步进行去噪迭代，得到目标数据；其中，所述扩散模型包括原模型和降级模型，所述混合引导策略用于引导所述原模型和所述降级模型分别进行无分类器引导；将所述目标数据解码至音频空间，得到所述音频生成任务对应的音频信息。本公开通过引导原模型和降级模型分别进行无分类器引导和降级模型引导的混合引导策略使得引导路径更具结构性和鲁棒性，有效提升了语义保真度和音频信号的自然度。

技术关键词

噪声分类器音频数据解码计算机程序指令策略电子设备计算机程序产品处理器解码模块编码模块强度可读存储介质存储器鲁棒性语义

系统为您推荐了相关专利信息

基于智能陪伴机器人的人脸表情识别方法

智能陪伴机器人人脸表情识别方法语音采集设备对象体态特征

基于显著性判断的城市声事件标注与识别方法

深度学习模型训练识别方法通道注意力机制 Pearson相关系数深度学习模型优化

基于自适应扩张状态观测器的柔性机构模型参数估计方法

柔性机构扩张状态观测器模型参数估计方法估计误差柔性机械臂

并行计算芯片模块级自愈方法、系统、设备及存储介质

多处理器自愈方法芯片模块恢复控制器动态权重分配

一种基于皮肤电信号多任务特征融合的混合情绪识别方法

情绪识别方法深度时空特征多任务分类手工特征电信号

音频生成的方法、装置、存储介质、电子设备和程序产品

站点导航

APP 下载