摘要
本发明提供了一种基于可解释性的图像分类模型后门防御方法和装置,方法包括:搭建后门实验环境基准训练图像分类的干净模型和后门模型;对训练后的干净模型和后门模型进行可解释性实验,获取所述数据集下各个类别的概念并进行筛选;基于筛选后的概念进行可解释表现的综合特征向量构造;将构造的综合特征向量作为输入训练用于区分干净模型和后面模型的二分类器;利用二分类器判断待测图像分类模型是否属于后门模型。本发明通过引入基于可解释性的图像分类模型后门防御方法,利用模型在不同可解释方法下的表现差异,有效区分干净模型和后门模型,实现对后门注入攻击的检测和防御,具有较高的检测准确性和实用性,提升了模型的安全性和可靠性。
技术关键词
图像分类模型
后门
概念
二分类器
颜色
支持向量机法
Canny算子
纹理特征提取
样本
边缘检测
像素块
分类器训练
处理器
基准
数据
可读存储介质
存储器
系统为您推荐了相关专利信息
可见光图像
手部特征
关键点特征
配准方法
可见光相机
知识图谱构建方法
大语言模型
验证规则
实体关系数据
生成知识图谱
环保涂料
颜色测定方法
油漆
释放量
多元线性回归模型
产品测试方法
产品测试装置
人工智能模型
脚本编译系统
集合系统