摘要
本发明公开基于视频帧的视频多模态大模型越狱攻击方法、系统、设备和介质,方法包括:构建有害语料库;将视频分解成视频帧,利用有害语料库生成噪声并添加到视频帧,生成对抗性视频帧,将所有生成的对抗性视频帧合成视频越狱样本;通过固定视频越狱样本,找到最优的有害文本指令;将视频越狱样本和最优有害文本指令组合作为视频多模态大模型的联合输入,以评估待评价的视频多模态大模型的安全性能。本发明可以有效生成一个通用的视频越狱攻击样本攻击安全对齐后的视频多模态大模型,显著降低了越狱攻击多个不同多模态大模型带来的资源消耗。
技术关键词
多模态
视频帧
文本
对抗性
样本
生成噪声
指令
识别视频内容
大语言模型
随机噪声
批量
意图
模板
处理器
可读存储介质
模块
存储器
计算机
系统为您推荐了相关专利信息
兴趣
大语言模型
控件
数据显示单元
计算机程序产品
样本
神经网络模型
计算机程序产品
金融科技技术
可读存储介质
图文识别系统
语义
子模块
文本关键词提取
大数据