摘要
本发明公开了一种端到端的深度伪造语音检测系统及方法,属于语音处理技术领域。其检测系统分为前端嵌入提取网络和后端分类网络两部分。前端嵌入提取网络采用前端预训练模型来提取语音信号的不同尺度的全局语义特征,并采用特征融合模块对提取的不同尺度的全局语义特征进行深度融合,进一步增强特征嵌入的表达能力。后端分类网络采用单层长短期记忆分类网络对融合特征进行分类,并使用交叉熵损失和中心损失进行联合优化,最终判断语音是真实的还是伪造的。本发明应用于语音安全、身份认证、语音助手等场景中,能够提供更加准确、鲁棒和具有良好泛化能力的深度伪造语音检测方案,对于提升语音识别系统的安全性和可信度,具有重要意义。
技术关键词
语音检测系统
分类网络
预训练模型
语义特征
语音检测方法
信号
编码器
更新网络参数
语音识别系统
单层
工具包
样本
训练集数据
语音助手
模块
时序特征
融合特征
系统为您推荐了相关专利信息
海量视频数据
掩膜
迭代优化方法
图像重建
编码器
时序数据预测
神经网络模型
混合特征提取
时序特征
损失函数优化
多任务神经网络
佩戴安全帽
穿戴检测方法
工装
关键点