摘要
本发明提供了一种融合实例和场景的自动驾驶视觉语言大模型对抗攻击方法及相关装置,属于人工智能安全技术领域。本发明方法利用若干个场景级注意力图,对视觉问答数据集中的场景级图像进行场景级干扰,得到一个被干扰文本攻击的场景级图像,所述场景级干扰指的是对场景级图像进行全局对抗干扰。将若干个实例级图像、一个被干扰文本攻击的场景级图像、一个场景级图像对应的若干个增强文本在特征空间中进行交互融合,得到一个场景级的对抗样本图像。与现有技术相比,本发明解决了自动驾驶中多模态交互攻击的成功率不高的问题。
技术关键词
图像
文本
注意力
视觉
数据获取模块
生成场景
样本
处理器
算法
存储器
物体
检测器
电子设备
语义
系统为您推荐了相关专利信息
语义分割模型
像素点
语义分割方法
样本
通信接口
交互特征
多模态特征
多头注意力机制
多模态交互
抑郁检测系统
连续小波变换
分类识别方法
卷积神经网络方法
全局结构信息
特征融合方法
生成对抗网络模型
数字岩心重构方法
多组分结构
岩心图像
样本