摘要
本发明公开了一种基于自监督学习的语音欺骗检测方法,涉及语音欺骗检测技术领域。包括:获取多段音频数据,对音频数据进行预处理和数据增强;构建Wav2vec 2.0语音识别模型;对Wav2vec 2.0语音识别模型进行预训练;对预训练好的Wav2vec 2.0语音识别模型进行微调训练;使用后端编码器提取高级特征表示;使用自注意力机制聚合高级特征表示,生成频域和时域表示;根据频域和时域表示,得到联合向量表示;将联合向量表示输入到多个全连接层构成的分类器模块中,得到最终分类结果,判断输入音频片段是真实语音还是欺骗语音。本发明结合自监督学习、自注意力聚合层和数据增强技术,显著提升语音欺骗检测性能。
技术关键词
语音欺骗检测
语音识别模型
音频
注意力机制
分类器
数据
模拟真实世界
传播算法
编码器模块
样本
线性单元
标签
输出特征
异构
矩阵
波形
分支