摘要
本发明提供一种基于多特征联合网络学习的语音欺骗检测算法,接收到语音信号后,对所述语音信号进行信号处理工作,提取三种特征,并将每个特征分别输入深度卷积神经网络的后端分类器,计算得到三种特征对应的检测分数,将检测分数进行融合分析,判断所述待测的语音信号是人声还是ai语音合成攻击的结果;具体算法包括:信号处理、特征提取、基于深度神经网络的后端分类器检测、输出分数以及做出判决,本发明建立TF‑TDNN时延神经网络作为后端分类器,对三种特征进行分类学习,得到三种检测分数,基于ECAPA‑TDNN的架构,有效建模全局通道的相关性并且得到多尺度特征信息,在此基础上加入AFM注意力融合机制,得到各卷积层的融合信息,帮助网络获得更多隐含特征,提高模型度量结果。
技术关键词
语音欺骗检测
深度卷积神经网络
分类器
短时傅里叶变换
激励残差网络
深度神经网络
MFCC特征
算法
离散余弦变换
信号处理
人耳听觉特性
注意力
线性滤波器
分支
深度学习模型
多尺度特征
声谱