一种特征语义区分和模型单步筛选的拟音音频生成方法

正文

推荐专利

申请号：CN202510678108

申请日期：2025-05-26

公开号：CN120895045A

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开的一种特征语义区分和模型单步筛选的拟音音频生成方法，属于计算机音频合成与信号处理技术领域。本发明实现方法为：1、将音频样本通过提取梅尔谱特征，通过短时傅里叶变换形成音频的频域谱图，利用梅尔滤波器组对频域谱图进行频域映射和对数压缩，形成梅尔频谱图；2、利用语义分类损失与监督重建损失融合损失对配置多级残差量化器的音频编解码器进行训练，获取具有语义区分的音频特征；3、对具有多任务扩散损失的音频扩散模型进行训练；4、利用已训练的音频扩散模型结合语言音频相似度对语音音频单步筛选，获取去噪音频。与现有技术相比，本发明解决了在模拟高质量逼真场景音效时，高效生成与输入语义一致的高质量音频的技术问题。

技术关键词

音频生成方法音频编解码器音频特征语义短时傅里叶变换多任务多层感知机音频编码器音频解码器深度卷积神经网络信号处理技术滤波器标签分支量化误差噪声样本量化器超参数

一种特征语义区分和模型单步筛选的拟音音频生成方法

站点导航

APP 下载