摘要
基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,涉及多媒体信息安全技术领域。技术方案:采用六种有损压缩算法对训练数据集进行压缩,从而得到与高质量训练集匹配的低质量数据,使用预训练的大模型XLS‑R从语音数据中提取特征,使用高质量的原始数据训练教师模型,使用低质量压缩数据,通过频域蒸馏和时域蒸馏训练学生模型。有益效果:本发明采用知识蒸馏作为主要框架,使用数据蒸馏的方式,用高质量数据去训练教师模型,低质量数据去训练学生模型,然后采用频域和时域蒸馏,使得学生模型可以从教师模型那学到压缩数据丢失的频域和时域信息,从而提高低质量数据的伪造检测性能,有效识别和打击伪造语音,维护语音信息的真实性和安全性。
技术关键词
蒸馏
音频特征
学生
教师
有损压缩算法
语音特征提取
多媒体信息安全技术
数据
样本
频域特征
定义
中间层
代表
模块
训练集
度量
网络
传播算法
系统为您推荐了相关专利信息
健康知识图谱
健康状态分析
注意力
知识图谱构建
知识蒸馏技术
医学图像分割模型
知识蒸馏方法
解码器
教师
学生
视频特征向量
识别方法
视频特征提取
多模态
交叉注意力机制