摘要
本发明涉及一种用于多模态大模型的越狱攻击测试方法,首先基于各个预设恶意提示文本,获得各个恶意提示最优文本;然后以获得各恶意提示最优文本所对应恶意提示文本分别关于目标多模态大语言模型的生成结果,以及基于各恶意提示最优文本,构建各恶意提示测试文本;最后由各恶意提示测试文本分别与对应关于目标多模态大语言模型的生成结果进行组合,构成各恶意测试用例,完成了对目标多模态大语言模型的自动化越狱攻击测试,设计方案通过优化恶意测试用例的生成,提高恶意测试用例的相关性和语义准确性,进而提高越狱攻击的成功率,并增强攻击的多样性和适应性,以此评估和改进多模态大语言模型的安全性,提高多模态大语言模型的安全性和鲁棒性。
技术关键词
大语言模型
攻击测试方法
多模态
生成结构
强化学习模型
策略
文本识别模型
对象
内容更新
信息更新
同义词
鲁棒性
重构
语义
冗余
音频
视频
图像
系统为您推荐了相关专利信息
数据分析方法
大语言模型
样本
生成图表
广告营销技术
农作物生长状态
标识解析技术
知识图谱构建
构建系统
数据安全监测
分类识别模型
分类识别方法
可见光图像
多模态
特征提取模块
大语言模型
车辆控制方法
指令组
可读存储介质
服务器