摘要
本发明涉及计算机技术应用领域,特别是涉及一种用于自然语言处理模型后门攻击防御的处理方法和装置,方法包括:利用数据增强方式生成文本样本的不同视图对自然语言处理模型进行第一阶段训练以及利用干净文本数据对模型进行第二阶段训练。本发明能够让模型学习文本样重要的特征,忽略小扰动对样本内容的干扰,破坏攻击者构建的触发器与目标类别之间的强联系,能够降低触发器对模型决策的干扰和增强模型鲁棒性,确保有效防御后门攻击的同时,保持模型分类任务的性能。
技术关键词
卷积特征提取
数据处理模型
自然语言
标记特征
加权特征
输出特征
后门
文本
编码器
数据获取模块
特征值
样本
鲁棒性
注意力
参数
决策
系统为您推荐了相关专利信息
智能客服系统
分词
情感分析模型
分类模型识别
自然语言
语义数据库
业务运行状态
文本
巡检数据
生成自然语言