基于双模态对抗提示的大型视觉语言模型风险测试方法

正文

推荐专利

申请号：CN202410724214

申请日期：2024-06-05

公开号：CN118862057A

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种基于双模态对抗提示的大型视觉语言模型风险测试方法，其包括S1获取视觉图像、语料库和数据集；S2生成视觉对抗扰动；S3选取数据集中未遍历的有害文本作为初始的文本对抗提示；S4将视觉对抗提示和文本对抗提示输入大型视觉语言模型，得到模型响应；S5判断模型响应是否为有害内容，若是，攻击成功次数加一，进入S7；否则，进入S6；S6判断更新次数是否大于预设次数，若是进入S7，否则，采用思维链策略更新文本对抗提示，更新次数加一，返回S4；S7判断数据集中的有害文本是否均已被遍历，若是，进入S8，否则进入S3；S8采用攻击成功次数与有害文本的总数量，计算越狱测试成功率，以评估模型内容安全风险。

技术关键词

风险测试方法视觉文本策略更新大语言模型双模态数据表达式图像语义符号场景频率网络

基于双模态对抗提示的大型视觉语言模型风险测试方法

站点导航

APP 下载