摘要
本发明提供了一种针对大模型提示注入攻击的攻防一体化方法,方法包括:使用基于情感强化和控制输出的攻击策略对用户指令进行大模型提示注入攻击,形成恶意内容;然后将预防策略Sandwich,Instruction和检测方法Knownanswer进行融合,构建协同工作的多层次防御策略UnD对上述恶意内容进行提示注入防御,得到输出结果,最后使用攻击干扰率、攻击误导率、METEOR得分、防御成功率、已知答案匹配率进行效果评估。本发明在攻击方面实现了攻击效率更高的提示注入攻击,在防御方面实现了检测和预防的协同,提高了大模型在面对提示注入攻击时的安全性,确保大语言模型在各种应用场景中安全可靠运行。
技术关键词
一体化方法
字段
指令
样本
答案
策略
多层次
大语言模型
语义
符号
定义
意图
文本
场景
基础
数据
系统为您推荐了相关专利信息
功率放大器模型
数字预失真模型
通信设备
数据
基带芯片
顶升机构
避障路径
激光雷达传感器
控制系统
环境感知信息
电子设备
设备管理
数据处理系统
云服务器
数据处理方法
匹配金融产品
XGBoost模型
客户
金融业务系统
产业互联网平台
异常设备
现场勘察设备
历史告警信息
非易失性存储介质
报警指示灯