摘要
本发明公开了一种基于注意力毒化的动态触发器文本后门攻击方法,属于人工智能安全技术领域,包括获取文本分类数据集D1、子数据集D2和分类神经网络;用D1训练分类神经网络得到文本分类模型;基于MLM任务、过滤阈值、综合评分和触发器选择模型构造毒化数据集D3;对文本分类模型和触发器选择模型进行联合后门训练;基于训练好的模型生成最终毒性样本。本发明在联合后门训练时不仅改变了后门模型权重,还增强了触发器选择模型的能力,使其能够更精准地选择具有更强毒性效果的触发词,并用触发器选择模型的输出控制后门模型中注意力层的输出,以此达成更为有效的毒化。这一创新性方法不仅加强了后门攻击的效果,也增加了其检测难度。
技术关键词
分类神经网络
文本分类模型
动态触发器
后门
样本
注意力
标签
预测类别
创新性方法
数据
矩阵
编码
超参数
元素
标记
阶段
系统为您推荐了相关专利信息
集成学习框架
紧凑特征
编码器
学习器
监督学习模型
灰度直方图
图像处理方法
灰度级控制
待测对象
像素
检测平台
漏洞
量子随机数发生器
量子傅里叶变换
风险
图像样本数据库
隧道渗水检测
深度学习模型
隧道衬砌
实例分割