摘要
本发明公开一种基于通用触发器的黑盒跨任务后门提示攻击方法,通过强化学习框架进行通用触发器的搜索,利用连续策略网络在黑盒环境下生成触发器,而无需访问模型内部信息。接着,利用所生成的触发器构建无梯度的中毒数据集,通过插入正面句子并与负面标签结合,生成中毒样本,进而进行提示微调训练,最后,通过PLM的输出信息调整输入的提示文本,使得带有通用触发器的提示能够在不同任务中成功激活目标后门行为。本发明采用强化学习框架搜索通用触发器,能够在黑盒环境下高效生成触发器,避免了对模型内部信息的依赖;通过无梯度中毒数据集构建,成功地实现了在多个任务中注入后门,且保持了高精度。
技术关键词
通用触发器
预训练语言模型
强化学习框架
标签
后门
策略
样本
文本
黑盒函数
令牌
语义
轻量级神经网络
微调机制
超参数
正面
梯度方法
评分机制
系统为您推荐了相关专利信息
多层卷积神经网络
自动标签
预训练模型
三通道
多标签
故障定位模型
LLC谐振变换器
功率开关
ARMA模型
故障定位方法
抗干扰通信方法
无人机集群
长短期记忆网络
采样池
构建无人机