摘要
本公开实施例公开了一种音频生成的方法、装置、存储介质、电子设备和程序产品,将获取的音频生成任务的引导信息进行编码,得到所述引导信息的隐空间表达;基于扩散模型,利用混合引导策略和所述引导信息的隐空间表达,逐步进行去噪迭代,得到目标数据;其中,所述扩散模型包括原模型和降级模型,所述混合引导策略用于引导所述原模型和所述降级模型分别进行无分类器引导;将所述目标数据解码至音频空间,得到所述音频生成任务对应的音频信息。本公开通过引导原模型和降级模型分别进行无分类器引导和降级模型引导的混合引导策略使得引导路径更具结构性和鲁棒性,有效提升了语义保真度和音频信号的自然度。
技术关键词
噪声
分类器
音频
数据解码
计算机程序指令
策略
电子设备
计算机程序产品
处理器
解码模块
编码模块
强度
可读存储介质
存储器
鲁棒性
语义
系统为您推荐了相关专利信息
智能陪伴机器人
人脸表情识别方法
语音采集设备
对象
体态特征
深度学习模型训练
识别方法
通道注意力机制
Pearson相关系数
深度学习模型优化
柔性机构
扩张状态观测器
模型参数估计方法
估计误差
柔性机械臂
多处理器
自愈方法
芯片模块
恢复控制器
动态权重分配
情绪识别方法
深度时空特征
多任务分类
手工特征
电信号