摘要
提供了一种基于小样本学习的多域声学特征融合的伪造音频鉴别方法和计算装置。所述方法包括:获取待鉴别音频,并对所述待鉴别音频进行预处理;从经预处理的待鉴别音频中提取梅尔频率倒谱系数、梅尔频谱图和音高;将梅尔频率倒谱系数、梅尔频谱图和音高进行融合以得到融合特征;将融合特征输入至预训练的分类模型,生成待鉴别音频为真实或伪造的概率分布;以及根据概率分布,判断待鉴别音频为真实或伪造。其中,提取梅尔频率倒谱系数的步骤中包括动态范围压缩,提取梅尔频谱图的步骤包括采用高分辨率的梅尔滤波器组,提取音高的步骤包括抗噪处理。本申请的伪造音频鉴别方法通过小样本学习和多域声学特征以有效克服数据不足、泛化性不足的问题。
技术关键词
梅尔频率倒谱系数
鉴别方法
融合特征
音频
声学特征
样本
多头注意力机制
生成多尺度
卷积架构
短时傅里叶变换
元学习算法
多层级特征
参数
离散余弦变换
数据
动态
低通滤波器