摘要
本发明公开的一种特征语义区分和模型单步筛选的拟音音频生成方法,属于计算机音频合成与信号处理技术领域。本发明实现方法为:1、将音频样本通过提取梅尔谱特征,通过短时傅里叶变换形成音频的频域谱图,利用梅尔滤波器组对频域谱图进行频域映射和对数压缩,形成梅尔频谱图;2、利用语义分类损失与监督重建损失融合损失对配置多级残差量化器的音频编解码器进行训练,获取具有语义区分的音频特征;3、对具有多任务扩散损失的音频扩散模型进行训练;4、利用已训练的音频扩散模型结合语言音频相似度对语音音频单步筛选,获取去噪音频。与现有技术相比,本发明解决了在模拟高质量逼真场景音效时,高效生成与输入语义一致的高质量音频的技术问题。
技术关键词
音频生成方法
音频编解码器
音频特征
语义
短时傅里叶变换
多任务
多层感知机
音频编码器
音频解码器
深度卷积神经网络
信号处理技术
滤波器
标签
分支
量化误差
噪声
样本
量化器
超参数