摘要
本发明涉及音频处理技术领域,尤其涉及一种基于WeSpeaker架构的隐私增强型语音伪造检测方法,在具体使用时,本方法包括三个阶段,第一个阶段是音频输入与隐私保护预处理阶段,该阶段通过声学‑语义解耦技术实现语音内容的隐私保护。第二个阶段是基于改进WeSpeaker的特征提取阶段,利用轻量改进的WeSpeaker架构进行音频特征的深度提取。第三个阶段是伪造判别与决策阶段,通过轻量级全连接二分类层对提取的特征进行“真实/伪造”的判别。最终将给出音频是否伪造的检测结果。以此方式解决了现有技术中的语音伪造检测技术在实际使用时,存在隐私泄露风险、模型复杂度高且目标任务不匹配、泛化能力受限的技术问题。
技术关键词
增强型语音
通道注意力机制
TTS技术
速度变化技术
解耦技术
声音转换技术
残差结构
阶段
音频特征
音频编解码器
语义
声学结构
强化特征
时序
声码器
网络结构
数据