摘要
本发明属于人工智能安全技术领域,涉及一种针对模型后门攻击的防御方法。本发明旨在解决现有防御技术常导致模型准确率显著下降的问题。该方法结合了后门标签检测与模型微调方法,通过以下步骤实现:首先,利用神经清洗方法检测后门标签,并识别潜在后门触发器;其次,使用投影梯度下降算法生成对抗样本;接着,进行第一阶段的对抗性微调训练,以降低模型对后门触发器的敏感性;最后,通过干净样本进行第二阶段的微调训练,逐步恢复模型在原始数据上的分类性能。
技术关键词
后门检测方法
样本
标签
梯度下降算法
清洗方法
微调方法
防御系统
对抗性
模块
参数
邻域
数值
动态
系统为您推荐了相关专利信息
风机叶片
损伤识别模型
神经网络模型
损伤识别方法
损伤识别装置
工控异常检测
工业控制系统
执行器
工控协议
异常检测系统
计算机可执行指令
测量方法
测距设备
参数
电平转换电路