摘要
本发明属于深度学习安全领域,公开了一种多模态智能体助手视觉安全测评方法及相关装置,包括获取待测评多模态智能体助手的用户指令和各场景下的用户任务场景截图;基于预设的对抗目标,在各场景下的用户任务场景截图中选取攻击范围;根据对抗目标和攻击范围,基于替代模型生成基于白盒攻击的对抗性任务场景截图,通过嵌入误导性文字方法生成基于黑盒攻击的对抗性任务场景截图;将用户指令和对抗性任务场景截图输入待测评多模态智能体助手,并结合待测评多模态智能体助手的预期响应得到测评结果,为多模态智能体助手的视觉模型的测试和安全性提升提供了重要的技术支持。
技术关键词
多模态
场景
测评方法
对抗性
视觉
易混淆字符
注意力
指令
测评系统
可读存储介质
白盒
梯度下降法
数据获取模块
处理器
模拟系统
生成用户
文本
界面
计算机设备
存储器