摘要
本申请提供了一种模型攻击方法、装置、存储介质及设备,该方法应用于计算机技术领域,该方法包括:攻击模型向目标模型发送与攻击任务相关的第一攻击提示,对目标模型针对第一攻击提示所返回的第一响应内容进行语义分析,根据语义分析结果确定是否停止攻击,若继续攻击,则根据攻击提示、响应内容以及攻击任务之间的攻击相关性分数确定与目标模型的对话方向。在针对目标模型的攻击过程中,通过多回合对话,对响应内容进行语义分析,逐步调整对话方向,提升攻击成功率,使研究者可以识别目标模型在生成响应内容时的薄弱环节,有助于发现目标模型的漏洞,并开发更有效的安全防御机制。
技术关键词
输入输出接口
计算机存储介质
语义
存储程序代码
处理器
话题
存储器
分析单元
计算机设备
策略
复杂度
漏洞
指令
基础
页面
系统为您推荐了相关专利信息
交通标志图像
感兴趣区域池化模型
训练特征
生成对抗网络模型
可变形卷积层
性能表征方法
压铸构件
曲线
虚拟仿真环境
性能表征装置
消息
联合信源信道编码
分析模块
神经网络参数
差错保护