摘要
本发明公开了一种基于单词替换的文本对抗样本检测方法、系统,包括:确定文本对抗样本检测目标;计算单词差分反应得分筛选重要单词;将筛选出的重要单词进行随机替换并投票检测;检测样本,若检测出对抗样本则给出其正确标签;该基于单词替换的文本对抗样本检测方法,基于logit计算单词级差分反应(WDR),捕获对分类器有可疑高影响的单词;随后用其同义词替换单词,通过检查之前和之后标签的变化并结合支援模型来检测对抗文本,并进行正确预测;通过检测对抗文本以识别是否存在对抗攻击,纠正预测结果以保护模型免受对抗攻击。
技术关键词
样本检测方法
文本
深度学习模型
对抗性
样本检测系统
列表
标签模块
预测类别
同义词
分类器
代表
表达式
定义
语义
比率
偏差
标记