摘要
后门攻击在当下自然语言处理领域研究十分广泛,许多对于预训练语言模型的后门攻击方法都涌现出来使得人们警醒在当下语言模型应用中要注意的安全问题。该方法通过使用大型预训练语言模型对后门攻击中的有毒文本数据进行过滤。采用预训练语言模型中已有的训练知识,对带有触发器的有毒数据进行流畅性的评估。通过流畅性的评估指标困惑度的数值对有毒数据进行评估,在进行后门训练的前一环节对训练数据中潜在的有毒数据进行过滤剔除降低后门攻击对模型的攻击成功率。具体来说我们通过对中文文本进行分词并逐一遍历,逐一从文本删除进行困惑度评估,找到有毒文本中潜在的有害触发器。
技术关键词
攻击防御方法
预训练语言模型
后门
中文自然语言
中文分词工具
中文文本
下载数据
编码
有效性
平台
字符
数值
指标
序列
系统为您推荐了相关专利信息
文本特征向量
双向长短期记忆网络
风险评估模型
风险评估方法
非易失性存储介质
文本生成方法
大语言模型
Attention机制
数据
预训练语言模型
知识抽取方法
BERT模型
雷达
序列标注方法
预训练语言模型
预训练语言模型
单细胞转录组数据
联合分析方法
文本
多模态