摘要
本公开提供一种网络模型解释方法、装置和相关产品,涉及计算机与互联网技术领域。该方法包括:获取原始图像和第一对抗解释图像;确定第一对抗解释图像相对于原始图像的第一扰动;确定第一扰动的最大扰动绝对值小于或者等于局部最小扰动值;沿着向目标类别分类变化的梯度方向确定第一扰动变化量;根据第一扰动变化量对第一扰动进行更新;其中,更新后的第一扰动用于控制原始图像的预测类别向目标类别靠近;将第一扰动添加至原始图像以生成第二对抗解释图像,以便通过第二对抗解释图像对目标模型将原始图像分类为目标类别的过程进行解释。通过本公开提供的第二对抗解释图像可以清晰展示目标模型决策的依据,增强模型的可解释性。
技术关键词
模型解释方法
计算机程序指令
预测类别
可读存储介质
图像获取模块
网络
存储计算机程序
计算机程序产品
处理器
互联网技术
存储器
电子设备
决策