摘要
本发明提供了一种基于共享特征攻击的视觉语言模型漏洞确定方法及设备。所述方法包括:构建源模型及目标模型,在源模型上生成对抗样本,生成包括优化的扰动;获取对抗特征并计算每个对抗特征对输出的贡献,采用模型增强实现共享对抗特征,并对共享对抗特征进行空间增强和频域增强;将空间增强结果及频域增强结果代入攻击算法对共享对抗特征进行扰动,得到视觉语言模型的漏洞。本发明各个实施例提出的基于共享特征攻击的视觉语言模型漏洞确定的方法在不同模型、数据集和任务上均表现出更优的攻击性能,从而能够对漏洞进行更加充分的确认。本发明在人工智能领域具有非常广泛的应用,研究和提升多模态大模型的鲁棒性,识别并缓解对抗攻击对人工智能系统的潜在威胁,评估人工智能模型在不同攻击场景下的安全性,辅助制定防御策略,并且增强了多模态大模型的可解释性,通过对抗攻击分析模型的决策机制,揭示其潜在漏洞和偏差。
技术关键词
投影特征
漏洞
视觉
人工智能系统
人工智能模型
通信接口
图像编码器
样本
处理器
算法
存储器
基准
计算机
指令
符号
索引
多模态
鲁棒性
系统为您推荐了相关专利信息
机器视觉检测方法
后刀面磨损
铣削刀具
刀具磨损图像
边缘检测算子
视频生成模型
生成方法
视频帧
微调技术
语义特征