摘要
本发明涉及基于拓扑正则项的可解释性模型鲁棒训练方法,属于人工智能安全领域。本发明首先对原始样本进行语义保持的扰动得到扰动样本;其次将原始样本与扰动样本输入目标模型,分别计算其梯度值生成对应解释图像;然后基于余弦距离与欧式距离计算样本扰动前后的梯度差异,利用持久同调方法提取样本扰动前后解释图像的拓扑特征以量化拓扑差异;最后将梯度差异与拓扑差异作为正则项,与交叉熵损失共同构成总损失,依据各差异在总损失中的占比动态调整正则项权重。本发明针对现有方法仅利用梯度差异特征训练模型影响其抗干扰性,以及固定的正则项权重难适应多类型扰动降低模型的泛化性问题,提出利用解释图像的拓扑特征有效提升模型解释的鲁棒性。
技术关键词
拓扑特征
Wasserstein距离度量
样本
图像
更新模型参数
因子
持久性
孔洞
鲁棒性
策略
像素
动态
环形
语义
强度
数据