一种基于困惑度过滤的中文后门攻击防御方法

正文

推荐专利

申请号：CN202410772942

申请日期：2024-06-14

公开号：CN118674007A

公开日期：2024-09-20

类型：发明专利

摘要

后门攻击在当下自然语言处理领域研究十分广泛，许多对于预训练语言模型的后门攻击方法都涌现出来使得人们警醒在当下语言模型应用中要注意的安全问题。该方法通过使用大型预训练语言模型对后门攻击中的有毒文本数据进行过滤。采用预训练语言模型中已有的训练知识，对带有触发器的有毒数据进行流畅性的评估。通过流畅性的评估指标困惑度的数值对有毒数据进行评估，在进行后门训练的前一环节对训练数据中潜在的有毒数据进行过滤剔除降低后门攻击对模型的攻击成功率。具体来说我们通过对中文文本进行分词并逐一遍历，逐一从文本删除进行困惑度评估，找到有毒文本中潜在的有害触发器。

技术关键词

攻击防御方法预训练语言模型后门中文自然语言中文分词工具中文文本下载数据编码有效性平台字符数值指标序列

系统为您推荐了相关专利信息

风险评估方法及装置、非易失性存储介质、电子设备

文本特征向量双向长短期记忆网络风险评估模型风险评估方法非易失性存储介质

一种基于大语言模型的地质文本生成方法、系统和装置

文本生成方法大语言模型 Attention机制数据预训练语言模型

基于互补融合的全媒体融合方法及系统

媒体融合方法数据存储格式化特征提取模块

基于BERT模型的雷达对抗领域知识抽取方法及系统

知识抽取方法 BERT模型雷达序列标注方法预训练语言模型

一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法

预训练语言模型单细胞转录组数据联合分析方法文本多模态

一种基于困惑度过滤的中文后门攻击防御方法

站点导航

APP 下载