摘要
本发明公开一种基于虚假演示的隐藏后门提示攻击方法,本发明主要通过重构提示的语义和结构特征,将看似正常的提示转化为隐蔽的触发器,攻击者在不修改输入内容与标签的前提下,设计具有特殊语义模式的中毒提示,并嵌入演示示例中,当模型通过上下文学习解析这些示例时,其类比推理能力会自发建立中毒提示与目标标签的隐性关联,形成“后门”逻辑。本发明将提示整体作为触发器来激活后门行为,利用特殊设计的提示作为演示示例来引导模型学习特定的触发模式,通过改变演示示例中提示的表达方式,攻击者能够在不修改用户输入的情况下激活后门行为,显著提高后门的隐蔽性和攻击成功率。
技术关键词
隐藏后门
注意力
语义
模板组合
双重验证机制
模式匹配
预训练语言模型
标签
文本
句法结构
大语言模型
模板结构
样本
同义词
序列
标识符
令牌
系统为您推荐了相关专利信息
汽车压铸件
图像
异常检测方法
特征提取模块
特征提取单元
动作评估方法
骨骼关键点
多模态传感器
动态时间弯曲
归一化方法
水位预测方法
注意力机制
强化学习算法
LSTM模型
因子
蒙汉神经机器翻译方法
大语言模型
蒙古语
关键词
平行语料库