一种基于困惑度过滤的中文后门攻击防御方法

AITNT
正文
推荐专利
一种基于困惑度过滤的中文后门攻击防御方法
申请号:CN202410772942
申请日期:2024-06-14
公开号:CN118674007A
公开日期:2024-09-20
类型:发明专利
摘要
后门攻击在当下自然语言处理领域研究十分广泛,许多对于预训练语言模型的后门攻击方法都涌现出来使得人们警醒在当下语言模型应用中要注意的安全问题。该方法通过使用大型预训练语言模型对后门攻击中的有毒文本数据进行过滤。采用预训练语言模型中已有的训练知识,对带有触发器的有毒数据进行流畅性的评估。通过流畅性的评估指标困惑度的数值对有毒数据进行评估,在进行后门训练的前一环节对训练数据中潜在的有毒数据进行过滤剔除降低后门攻击对模型的攻击成功率。具体来说我们通过对中文文本进行分词并逐一遍历,逐一从文本删除进行困惑度评估,找到有毒文本中潜在的有害触发器。
技术关键词
攻击防御方法 预训练语言模型 后门 中文自然语言 中文分词工具 中文文本 下载数据 编码 有效性 平台 字符 数值 指标 序列
系统为您推荐了相关专利信息
1
风险评估方法及装置、非易失性存储介质、电子设备
文本特征向量 双向长短期记忆网络 风险评估模型 风险评估方法 非易失性存储介质
2
一种基于大语言模型的地质文本生成方法、系统和装置
文本生成方法 大语言模型 Attention机制 数据 预训练语言模型
3
基于互补融合的全媒体融合方法及系统
媒体 融合方法 数据存储 格式化 特征提取模块
4
基于BERT模型的雷达对抗领域知识抽取方法及系统
知识抽取方法 BERT模型 雷达 序列标注方法 预训练语言模型
5
一种基于多模态语言模型的单细胞转录组数据与文本描述联合分析方法
预训练语言模型 单细胞转录组数据 联合分析方法 文本 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号