摘要
本发明提供一种基于SHAP values的文本后门防御方法及系统,该方法包括:使用SHAP可解释器获取待处理句子中各特征词的SHAP values值;将所述待处理句子中SHAP values值最大的第一预设数量的特征词作为怀疑词;将所述怀疑词的SHAP values值与预设阈值进行比较,根据比较结果对所述怀疑词进行删除或词替换,得到新句子。本发明使用SHAP可解释器能准确检测出样本中的后门触发器,结合对怀疑词的删除和词替换操作,在高效地实现文本后门防御的同时,保留了原始样本的语义完整。
技术关键词
后门
文本
非暂态计算机可读存储介质
预测类别
样本
BERT模型
防御系统
处理器
语义
分析模块
存储器
电子设备
词语
字符
程序
系统为您推荐了相关专利信息
多模态数据融合
会诊系统
图谱
多模态特征
融合特征
大语言模型
企业知识图谱
文件检测方法
检测点
文本