一种基于目标标签相似度的文本后门攻击方法

正文

推荐专利

申请号：CN202410772763

申请日期：2024-06-14

公开号：CN118551827A

公开日期：2024-08-27

类型：发明专利

摘要

该方法在里面通过使用词嵌入技术，在数据集的文本上训练出一个词嵌入模型，对整个数据集中的文本上下文信息进行提取建模，然后攻击者定义后门攻击的目标标签，并通过词嵌入模型在文本中寻找到与目标标签最为相似的文本，粒度可以为字或词，同时将与目标标签相似度最大的位置设置为后门攻击触发器注入的位置，再选定触发器样式之后对选定的文本生成触发器并注入到指定位置。构建出有毒数据，之后将有毒数据与干净数据进行混合用于后门训练。在进行后门训练之前，将预训练语言模型在干净数据集上进行训练评估和测试获得干净性能。最后将预训练语言模型在有毒数据集上微调得到在后门训练下的干净准确度并在有毒测试集上进行测试得到攻击成功率用于评估后门攻击的隐蔽性和有效性。

技术关键词

后门词嵌入模型预训练语言模型文本中文自然语言标签数据词嵌入技术有效性样式平台语义符号格式定义

系统为您推荐了相关专利信息

液冷超充终端

输入输出单元前门人机交互单元进风口终端

一种工业图像异常检测多模态大模型的结构化数据智力密度增强方法及系统

智力文本样本图文多模态

一种城市商贸功能空间选择评估及预测方法、系统

多维特征数据空间拓扑关系多任务机器学习文本分类指标

移动小程序中隐私数据使用目的一致性检测方法及系统

小程序一致性检测句式结构多分类器数据

语音离散表征模型的训练方法、语音信号的处理方法

语音特征文本信号语义样本

一种基于目标标签相似度的文本后门攻击方法

站点导航

APP 下载