摘要
本发明公开了一种基于特征劫持的统一视觉语言模型后门攻击方法,步骤如下:获取数据集及统一视觉语言模型;初始化多模态触发器,触发检测器,动态特征对齐模块等后门模块;构建有害数据集,从训练集中随机选取一部分样本,为样本注入多模态触发器,生成中毒样本,将原训练数据和生成的中毒样本数据混合,生成有害数据集;使用有害数据集对模型进行训练,冻结模型原始参数,仅允许后门模块参与训练;模型推理,训练生成的中毒模型在良性测试样本上表现正常,但当文本和图像后门触发器同时存在时,模型将输出预设答案,实现后门攻击。本发明提供的方法解决了由于仅采用单模触发或特征扰动不足而导致对统一视觉语言模型攻击效果不足的问题。
技术关键词
后门
样本
对齐模块
文本
图像
检测器模块
参数
答案
数据
多模态特征
多层卷积神经网络
子模块
视觉特征
动态
神经网络结构
系统为您推荐了相关专利信息
行车记录仪系统
全景控制器
DCDC转换器
车身控制器
显示设备
行人重识别模型
人脸检测方法
道路监控视频
卷积模块
构建训练集
图像提取方法
仿真模型
数字城市规划
GPS轨迹数据
开放街道地图
显示屏装置
控制模块
传感器模块
背光驱动芯片
输入端
增量式神经网络模型
增量式数据
样本
时间段
艾滋病防治