摘要
本发明公开了基于图片重构损失的迁移对抗攻击方法、装置及电子设备,属于视觉语言大模型技术领域。方法包括:以CLIP的图片编码器作为编码器并训练基于MAE架构的解码器,获得训练好的编码器‑解码器模型;将原始图片输入编码器‑解码器模型,同时基于投影梯度下降法最大化编码器‑解码器模型输出图片相对于原始图片的重构损失,生成对抗样本;将对抗样本迁移至视觉语言大模型进行攻击,检测视觉语言大模型的鲁棒性。本发明通过增大图片重构损失进行优化,并生成对抗样本用于对视觉语言大模型进行攻击,可拓展至不同的文本提示和场景下,具有较好的可拓展性。
技术关键词
解码器模型
图片
编码器
重构
梯度下降法
视觉
编码特征
样本
鲁棒性
模型训练模块
电子设备
处理器
随机噪声
存储器
像素
指令
标记
参数