摘要
本发明公开了一种基于上下文保持的文本对抗样本语义提升方法。所述方法包括如下步骤:在未标注的公开数据集上构建关键词空间与词性扰动空间;确定语义扰动位置,生成知识标签;对纠错检查后的知识标签进行合理性排序;将排序后的知识标签与公开数据集通过特殊令牌组合得到标注数据;将每个标注数据将通过预定义的映射函数进行分词,得到令牌序列,对令牌序列进行文本的编码填充,得到填充后的令牌序列;利用填充后的令牌序列,完成多任务语义自适应训练,使用语义训练后的掩码语言模型进行基于掩码语言模型的文本对抗样本生成。本发明在不影响生成文本质量的情况下,能够有效提高基于掩码语言模型生成的文本对抗样本的语义一致性和攻击效率。
技术关键词
令牌
上下文语义信息
文本
序列
多任务
样本
语义关键词
语义标签
数据
纠错
关键词提取技术
大语言模型
同义词
参数
编码
生成知识
注意力
系统为您推荐了相关专利信息
对象属性信息
多模态
文本特征向量
计算机存储介质
图像
视觉图像信息
压铸件
缺陷检测方法
边缘检测
特征点
像素点
视频帧
图像分割
描述符
局部二值模式特征