摘要
本发明公开了一种基于对抗剪枝和知识蒸馏的后门防御方法,包括:S1、在神经网络进行模型训练前,为所有神经元引入掩码并初始化掩码值,并给模型加入对抗扰动;S2、将防御数据集输入模型进行训练,通过掩码值是否高于设定的门槛值来判断该神经元是否被剪枝;S3、选取剪枝过好得到的最好的网络用于后续的蒸馏操作,若未能得到较好性能的模型则返回步骤S2,将剪枝后的网络作为教师网络,未进行任何处理的模型作为学生网络;S4、将学生模型中间层注意力与教师网络的中间注意力层进行加权对齐;S5、通过观察模型的精度和攻击成功率的降低来评估模型的防御效果是否达标,否则返回步骤S4,继续训练。本发明通过结合对抗剪枝和知识蒸馏,实现了擦除后门模型的后门神经元,大大减少了攻击者的恶意行为,同时保持了模型的性能不受影响。该方法对深度学习领域的防御研究具有重要的理论价值和实践意义。
技术关键词
后门
教师
学生
知识蒸馏技术
门槛
网络
鲁棒性
梯度下降优化算法
标记
知识蒸馏方法
精度
数据
策略
分类准确率
有效性
注意力机制
特征选择
系统为您推荐了相关专利信息
尾矿库
高分辨率遥感影像
标记
大规模遥感影像
马赛克
展示模型
骨盆模型
股骨模型
下肢模型
胫骨高位截骨术