一种针对模型后门攻击的防御方法及系统

正文

推荐专利

一种针对模型后门攻击的防御方法及系统

申请号：CN202411650927

申请日期：2024-11-19

公开号：CN119670844B

公开日期：2025-12-19

类型：发明专利

摘要

本发明属于人工智能安全技术领域，涉及一种针对模型后门攻击的防御方法。本发明旨在解决现有防御技术常导致模型准确率显著下降的问题。该方法结合了后门标签检测与模型微调方法，通过以下步骤实现：首先，利用神经清洗方法检测后门标签，并识别潜在后门触发器；其次，使用投影梯度下降算法生成对抗样本；接着，进行第一阶段的对抗性微调训练，以降低模型对后门触发器的敏感性；最后，通过干净样本进行第二阶段的微调训练，逐步恢复模型在原始数据上的分类性能。

技术关键词

后门检测方法样本标签梯度下降算法清洗方法微调方法防御系统对抗性模块参数邻域数值动态

系统为您推荐了相关专利信息

基于小样本的风机叶片损伤识别方法及装置

风机叶片损伤识别模型神经网络模型损伤识别方法损伤识别装置

一种工业控制系统异常检测方法及系统

工控异常检测工业控制系统执行器工控协议异常检测系统

基于修辞手法识别和多特征融合的语句质量评测方法

小学生评测方法语句基础深度神经网络

低空相对高度测量方法、装置、电子设备及存储介质

计算机可执行指令测量方法测距设备参数电平转换电路

一种面向智能体视觉感知的图像去噪方法及系统

图像去噪方法噪声图像视觉掩膜图像去噪系统

一种针对模型后门攻击的防御方法及系统

站点导航

APP 下载