摘要
本申请公开了一种基于梯度先验信息的黑盒攻击优化方法,涉及人工智能模型安全技术领域,包括:在白盒模型场景中,基于目标文本和干净图片获取目标图片特征和对抗样本图片特征,基于随机快速梯度下降法生成迁移对抗样本图片与梯度先验信息;根据有限差分法计算梯度先验信息与黑盒模型损失函数真实梯度的相似程度估值,计算合成比例和扰动向量;将迁移对抗样本图片输入黑盒模型获取图片描述文本,将描述文本特征编码与目标文本特征编码做相似度比对得到损失函数,基于损失函数,通过随机梯度近似估计方法对迁移对抗样本图片中的扰动进行更新,输出最终对抗样本,实施黑盒查询攻击。本申请可实现攻击效果、攻击效果稳定性以及攻击方法泛用性的提升。
技术关键词
图片
黑盒模型
近似估计方法
样本
梯度下降法
模型场景
文本编码器
人工智能模型
处理器
可读存储介质
存储器
电子设备
阶梯
计算机
程序
参数