摘要
本发明公开了一种基于模拟训练的自然语言处理模型后门防御方法及系统,本发明包括从中毒的自然语言处理数据库中读取中毒数据集合,再进行标签平衡和噪声注入得到高噪声中毒数据集合,并对预设的自然语言处理模型通过模拟训练进行学习行为建模得到毒性揭露的数据集合;若建模质量是否满足要求则返回重新生成,否则利用毒性揭露的数据集合训练预设的自然语言处理模型,得到完成后门防御训练的、干净的自然语言处理模型以用于针对输入的文本获得对应的标签。本发明旨在解决现有基于数据或模型删除的后门防御方法可能损失关键信息导致后门防御性能下降的问题,提升自然语言处理模型的后门防御性能。
技术关键词
后门
数据
标签
噪声
文本
样本
概率密度函数
自然语言模型
微处理器
可读存储介质
防御系统
计算机程序产品
编程
表达式
指令
上采样
指数
系统为您推荐了相关专利信息
嵌入特征
网格地图
城市交通状态预测
特征提取模块
更新模型参数
供电故障
基板管理控制器
电源模组
非易失性存储设备
可编程逻辑器件
融合特征
历史轨迹数据
车辆轨迹预测方法
图像
时序