摘要
基于多尺度小波注意力的语音深度伪造检测方法,属于音频检测技术领域。技术方案:将原始语音输入至Wav2Vec 2.0预训练模型和语音情感识别模块中提取语音特征;引入小波变换,将其与深度神经网络集成,以增强模型捕获语音细节线索的能力;利用注意力机制突出最具辨别力的特征以提升模型的性能;在后端分类器中,采用三层LSTM捕捉时间序列中的上下文依赖性,同时定义包含四个注意力头的多头注意力机制,挖掘不同时间步之间的关键特征关联;将处理后的特征输入多层感知器进行分类。有益效果:本发明提出的基于多尺度小波注意力的语音深度伪造检测方法,在提升检测性能、增强鲁棒性和泛化能力、推动技术进步以及实现社会经济效益等方面均取得了显著的有益效果。
技术关键词
多尺度
语音情感识别
多头注意力机制
LSTM模型
深度神经网络
多层感知器
情感类别
音频检测技术
卷积特征
语音特征
迁移学习策略
编码器
短时傅里叶变换
离散小波变换
模块
分类器