一种恶意后缀构造方法、可控越狱攻击方法及装置

正文

推荐专利

一种恶意后缀构造方法、可控越狱攻击方法及装置

申请号：CN202511136240

申请日期：2025-08-14

公开号：CN121012660A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种恶意后缀构造方法、可控越狱攻击方法及装置，该方法设计了一种在扩散模型SD中的越狱攻击框架，该越狱攻击方法分别从文本模态和图像模态进行操作。在文本模态学习一个不包含敏感词的可迁移恶意后缀，使用余弦损失函数，在编码器层使恶意后缀和包含显式敏感词的恶意提示语义靠近，将学习到的恶意后缀添加到输入的文本提示的越狱对象之后，将无害的提示转换为敏感图像生成指令。在图像模态，通过设计的安全检查器损失和文本一致损失函数，进行反向传播梯度优化输入的待编辑原始图像，使生成的图像越过安全检查器的检查，生成包含NSFW内容的图像。本方法能够绕过安全检查器的安全限制，实现越狱攻击，揭露目前文生图模型存在的安全漏洞，并对模型的安全保护措施进行评估。

技术关键词

面向多对象图像特征向量文本编码器文本特征向量编辑掩膜序列场景生成指令元素语义特征模块策略矩阵概念

系统为您推荐了相关专利信息

医疗语音转文本错误纠正方法、装置、设备及介质

错误纠正方法语音多模态预训练模型文本编码器

图像生成方法、装置、设备和存储介质

风格噪声图像图像生成方法随机噪声生成噪声

在线标注系统版本管理方法、装置、设备及存储介质

版本管理方法标注系统编辑感兴趣图像标识符

图文质量评估方法、装置、电子设备和可读介质

图文打分器融合策略文本编码器多模态

图像生成方法、装置及相关设备

图像生成模型图像生成方法编码向量内容概括解码模块

一种恶意后缀构造方法、可控越狱攻击方法及装置

站点导航

APP 下载