摘要
本发明涉及人工智能安全技术领域,具体涉及一种基于注意力分数的文本对抗攻击方法,包括如下步骤,获取原始输入文本并对原始输入文本预处理,获得可处理的原始输入文本;利用HAN模型计算获得可处理的原始输入文本对应单词的注意力权重分数,获得注意力得分序列;筛选注意力得分序列的候选替换位置,获得候选扰动位置集合;基于RoBERTa模型生成候选替换词并筛选,获得上下文适应性强的替换词集合;搜索最优替换组合并生对抗样本;对对抗样本进行质量控制,输出最终攻击样本Xadv。
技术关键词
注意力
文本
样本
序列
单层感知机
语义
决策
格式
矩阵
指标
标记
代表
网络
数据