基于通用触发器的黑盒跨任务后门提示攻击方法

正文

推荐专利

申请号：CN202510375766

申请日期：2025-03-27

公开号：CN120146150A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开一种基于通用触发器的黑盒跨任务后门提示攻击方法，通过强化学习框架进行通用触发器的搜索，利用连续策略网络在黑盒环境下生成触发器，而无需访问模型内部信息。接着，利用所生成的触发器构建无梯度的中毒数据集，通过插入正面句子并与负面标签结合，生成中毒样本，进而进行提示微调训练，最后，通过PLM的输出信息调整输入的提示文本，使得带有通用触发器的提示能够在不同任务中成功激活目标后门行为。本发明采用强化学习框架搜索通用触发器，能够在黑盒环境下高效生成触发器，避免了对模型内部信息的依赖；通过无梯度中毒数据集构建，成功地实现了在多个任务中注入后门，且保持了高精度。

技术关键词

通用触发器预训练语言模型强化学习框架标签后门策略样本文本黑盒函数令牌语义轻量级神经网络微调机制超参数正面梯度方法评分机制

系统为您推荐了相关专利信息

演示文稿的生成方法、装置、存储介质以及电子设备

模板大语言模型文本层级生成方法

基于深度学习的音频自动标签方法及系统

多层卷积神经网络自动标签预训练模型三通道多标签

双向LLC谐振变换器功率开关管故障定位方法、系统和存储介质

故障定位模型 LLC谐振变换器功率开关 ARMA模型故障定位方法

一种基于元强化学习的无人机集群抗干扰通信方法

抗干扰通信方法无人机集群长短期记忆网络采样池构建无人机

一种文本-视频跨模态事件要素抽取方法

事件要素抽取方法文本跨模态视频共享数据

基于通用触发器的黑盒跨任务后门提示攻击方法

站点导航

APP 下载