摘要
本申请实施例提供了一种大模型对抗样本对生成方法、装置、电子设备及存储介质,涉及多模态大模型对抗样本技术领域。该方法包括:将图像文本对循环输入目标大模型中,得到对应的隐藏状态,将隐藏状态输入概率预测模型,得到预测越狱概率,基于预测越狱概率,更新图像文本对,直至达到第一预定结束条件,结束更新,得到对抗样本对。本申请实施例通过隐藏状态的越狱概率更新图像文本对,从而生成对抗样本对,能够有效规避与大模型安全对齐的直接冲突,提高对抗样本对的生成效率。
技术关键词
生成方法
内容评估
文本
图像
训练样本集
电子设备
模块
参数
生成装置
多模态