摘要
本发明公开了一种基于双模态对抗提示的大型视觉语言模型风险测试方法,其包括S1获取视觉图像、语料库和数据集;S2生成视觉对抗扰动;S3选取数据集中未遍历的有害文本作为初始的文本对抗提示;S4将视觉对抗提示和文本对抗提示输入大型视觉语言模型,得到模型响应;S5判断模型响应是否为有害内容,若是,攻击成功次数加一,进入S7;否则,进入S6;S6判断更新次数是否大于预设次数,若是进入S7,否则,采用思维链策略更新文本对抗提示,更新次数加一,返回S4;S7判断数据集中的有害文本是否均已被遍历,若是,进入S8,否则进入S3;S8采用攻击成功次数与有害文本的总数量,计算越狱测试成功率,以评估模型内容安全风险。
技术关键词
风险测试方法
视觉
文本
策略更新
大语言模型
双模态
数据
表达式
图像
语义
符号
场景
频率
网络