摘要
该方法在里面通过使用词嵌入技术,在数据集的文本上训练出一个词嵌入模型,对整个数据集中的文本上下文信息进行提取建模,然后攻击者定义后门攻击的目标标签,并通过词嵌入模型在文本中寻找到与目标标签最为相似的文本,粒度可以为字或词,同时将与目标标签相似度最大的位置设置为后门攻击触发器注入的位置,再选定触发器样式之后对选定的文本生成触发器并注入到指定位置。构建出有毒数据,之后将有毒数据与干净数据进行混合用于后门训练。在进行后门训练之前,将预训练语言模型在干净数据集上进行训练评估和测试获得干净性能。最后将预训练语言模型在有毒数据集上微调得到在后门训练下的干净准确度并在有毒测试集上进行测试得到攻击成功率用于评估后门攻击的隐蔽性和有效性。
技术关键词
后门
词嵌入模型
预训练语言模型
文本
中文自然语言
标签
数据
词嵌入技术
有效性
样式
平台
语义
符号
格式
定义
系统为您推荐了相关专利信息
多维特征数据
空间拓扑关系
多任务
机器学习文本分类
指标