摘要
本发明公开了一种面向分割学习的模型后门攻击脆弱性分析方法和系统,属于人工智能安全领域。收集图像分类模型在分割学习过程中由客户端底层模型发送至服务器端中间模型的第一中间层表示,结合辅助数据集迭代训练底层替代模型;利用第一中间层表示训练聚类器,获取聚类类别到真实类别的映射关系,得到锚点;基于统计思想获取与图像触发器对应的中间层表示触发器;基于中间层表达形式的锚点替换目标类样本的后门攻击方法,向中间模型注入后门并训练;利用测试样本检测图像分类模型的后门攻击成功率,获得模型后门攻击脆弱性。本发明综合考虑了攻击测试方法的成功率和隐蔽性,可以更加全面的暴露模型在分割学习框架下的漏洞,推动防御技术的发展。
技术关键词
中间层
图像分类模型
后门
分析方法
样本
服务端
数据
锚点
副本
攻击测试方法
标签
客户端
两阶段
聚类
匈牙利算法
模型训练模块
关系
数值
分析系统
系统为您推荐了相关专利信息
原型
医学图像分割方法
查询特征
融合特征
医学图像分割模型
反欺诈模型
识别人脸图像
预训练模型
图像编码器
样本
鲁棒识别方法
增量式优化方法
边界特征
多级特征融合
注意力机制
识别方法
卷积神经网络结构
卷积神经网络训练
无人机飞行信息
输出特征
固态生物
样本接收装置
混合装置
入口
核酸提取装置