摘要
本发明公开了一种基于触发器重建的后门防御方法,给定一个后门模型,使用少量干净样本通过目标函数对每个类别进行触发器重建,使模型将所有附加有触发器的图像样本分类为目标标签;引入模型可解释性技术对所有重建的触发器进行裁剪,以去除噪音,得到更真实的触发器;使用Logits分析区分后门触发器与自然触发器;利用后门触发器在干净模型上的无效性与自然触发器在相似模型上的有效性构建检测模型,区分后门触发器与自然触发器;使用检测出的后门触发器进行对抗性训练以移除模型后门。本发明使用logits分析与两个性质识别后门触发器,提高了检测的正确率;最后使用对抗性学习方法使得模型“遗忘”学习到的后门,以达到去除后门的效果。
技术关键词
后门
样本
标签
对抗性
图像
检测模型训练
蒸馏
学生
有效性
像素点
学习方法
教师
正确率
矩阵
颜色
代表
重构
图案
元素
系统为您推荐了相关专利信息
智能检测方法
集电环碳刷
滑环室
计算机视觉
注意力机制
体育项目测试
动作评估方法
成绩
平板设备
人体骨骼关键点
置信度阈值
多模态
图文
图像
非临时性计算机可读存储介质