摘要
本发明公开了一种基于思维链的大语言模型迁移对抗攻击方法及系统,该方法首先选择原始数据集;其次基于对抗样本生成算法,通过OpenAttack攻击框架实现不同粒度级别的文本对抗攻击,获取具有扰动能力的对抗样本;然后基于CoT构造针对大模型的对抗迁移提示样本;最后利用构造的对抗提示对大模型进行攻击,以欺骗大模型获得错误输出,若模型产生与干净样本不同的输出则为攻击成功。本发明集成不同细粒度的对抗攻击算法,同时利用对抗样本在相似架构的模型之间的可迁移性,结合思维链技术实现针对大模型的对抗样本攻击,具有更优的攻击效果。
技术关键词
样本
大语言模型
深度神经网络模型
生成算法
对抗性
指令
数据
框架
文本
模块
接口
系统为您推荐了相关专利信息
电网调度指令
序列异常检测方法
样本
多层次
语义特征
风电机组传动链
在线故障诊断方法
教师
样本
多源特征
工作流优化方法
工作流执行
大语言模型
动态
自然语言