摘要
本发明涉及语义连贯的文本分类硬标签黑盒模型对抗样本生成方法,属于人工智能安全领域。本发明首先对原始样本进行多轮随机同义词替换直至黑盒模型分类错误;然后在替换词词向量的邻域内采用原型估计方法估计黑盒模型的决策边界,计算替换词的同义词到决策边界的欧氏距离,并为每个替换词选择接近边界的多个同义词分别进行替换,选出使得黑盒模型分类错误的样本构建候选对抗样本集;最后利用USE模型计算候选对抗样本与原始样本的语义相似度,选择最相似对抗样本作为最终对抗样本。本发明针对现有方法中词替换改变原始语义致使生成的对抗样本语义连贯性差的问题,通过分析原始样本的语义信息指导同义词选择,提升对抗样本与原始样本的语义相似度。
技术关键词
黑盒模型
同义词
样本生成方法
语义
估计方法
决策
对抗性
原型
文本
标签
贪婪算法
编码器
邻域
系统为您推荐了相关专利信息
扩张状态观测器
参数估计误差
估计方法
系统参数估计
机电系统控制
土地覆盖分类方法
多尺度特征提取
文本
图像
智能分类技术
配电系统规划
文本段落
大语言模型
图片
模型更新