一种针对模型后门攻击的防御方法及系统

AITNT
正文
推荐专利
一种针对模型后门攻击的防御方法及系统
申请号:CN202411650927
申请日期:2024-11-19
公开号:CN119670844B
公开日期:2025-12-19
类型:发明专利
摘要
本发明属于人工智能安全技术领域,涉及一种针对模型后门攻击的防御方法。本发明旨在解决现有防御技术常导致模型准确率显著下降的问题。该方法结合了后门标签检测与模型微调方法,通过以下步骤实现:首先,利用神经清洗方法检测后门标签,并识别潜在后门触发器;其次,使用投影梯度下降算法生成对抗样本;接着,进行第一阶段的对抗性微调训练,以降低模型对后门触发器的敏感性;最后,通过干净样本进行第二阶段的微调训练,逐步恢复模型在原始数据上的分类性能。
技术关键词
后门检测方法 样本 标签 梯度下降算法 清洗方法 微调方法 防御系统 对抗性 模块 参数 邻域 数值 动态
系统为您推荐了相关专利信息
1
基于小样本的风机叶片损伤识别方法及装置
风机叶片 损伤识别模型 神经网络模型 损伤识别方法 损伤识别装置
2
一种工业控制系统异常检测方法及系统
工控异常检测 工业控制系统 执行器 工控协议 异常检测系统
3
基于修辞手法识别和多特征融合的语句质量评测方法
小学生 评测方法 语句 基础 深度神经网络
4
低空相对高度测量方法、装置、电子设备及存储介质
计算机可执行指令 测量方法 测距设备 参数 电平转换电路
5
一种面向智能体视觉感知的图像去噪方法及系统
图像去噪方法 噪声图像 视觉 掩膜 图像去噪系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号