音频生成的方法、装置、存储介质、电子设备和程序产品

AITNT
正文
推荐专利
音频生成的方法、装置、存储介质、电子设备和程序产品
申请号:CN202510821684
申请日期:2025-06-19
公开号:CN120340507B
公开日期:2025-09-02
类型:发明专利
摘要
本公开实施例公开了一种音频生成的方法、装置、存储介质、电子设备和程序产品,将获取的音频生成任务的引导信息进行编码,得到所述引导信息的隐空间表达;基于扩散模型,利用混合引导策略和所述引导信息的隐空间表达,逐步进行去噪迭代,得到目标数据;其中,所述扩散模型包括原模型和降级模型,所述混合引导策略用于引导所述原模型和所述降级模型分别进行无分类器引导;将所述目标数据解码至音频空间,得到所述音频生成任务对应的音频信息。本公开通过引导原模型和降级模型分别进行无分类器引导和降级模型引导的混合引导策略使得引导路径更具结构性和鲁棒性,有效提升了语义保真度和音频信号的自然度。
技术关键词
噪声 分类器 音频 数据解码 计算机程序指令 策略 电子设备 计算机程序产品 处理器 解码模块 编码模块 强度 可读存储介质 存储器 鲁棒性 语义
系统为您推荐了相关专利信息
1
基于智能陪伴机器人的人脸表情识别方法
智能陪伴机器人 人脸表情识别方法 语音采集设备 对象 体态特征
2
基于显著性判断的城市声事件标注与识别方法
深度学习模型训练 识别方法 通道注意力机制 Pearson相关系数 深度学习模型优化
3
基于自适应扩张状态观测器的柔性机构模型参数估计方法
柔性机构 扩张状态观测器 模型参数估计方法 估计误差 柔性机械臂
4
并行计算芯片模块级自愈方法、系统、设备及存储介质
多处理器 自愈方法 芯片模块 恢复控制器 动态权重分配
5
一种基于皮肤电信号多任务特征融合的混合情绪识别方法
情绪识别方法 深度时空特征 多任务分类 手工特征 电信号
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号