摘要
本发明公开一种基于反向遗忘的后门防御方法及系统,属于人工智能安全领域;方法包括:利用原始干净样本集合训练预训练模型,并使用预训练模型从污染数据集中筛选出潜在干净样本集合,来合成新的干净样本集合,并使用新的干净样本集合对预训练模型进一步训练;将污染数据集和所述新的干净样本集合输入样本检测模型中,并分别采用交叉熵损失和熵约束进行训练;将污染数据集输入训练后的样本检测模型进行预测,来检测毒化样本。该方法对干净样本的模型特征表现进行反向遗忘,突出后门毒化样本的本体特征,而非直接寻找毒化样本的特征进行判别,从而对更新的样本中毒方法有着更加稳定的防御效果,脱离了传统后门检测方法的局限性。
技术关键词
样本
预训练模型
后门检测方法
数据
通信接口
模型训练模块
计算机存储介质
梯度下降法
防御系统
计算机程序产品
存储器
标签
处理器
指令
信息熵
变量
电子设备
系统为您推荐了相关专利信息
特征提取模块
跨模态
物联网设备
识别方法
多模态特征融合
人力资源智能
员工
动态规则引擎
服务管理方法
画像
身份识别设备
转换算法
设备主体
移动底座
区块链系统
微服务架构
恢复系统
自动化故障检测
容器化技术
机器学习算法
样本生成方法
扩充训练样本
非接触式心率
亮度
红外摄像头