一种恶意后缀构造方法、可控越狱攻击方法及装置

AITNT
正文
推荐专利
一种恶意后缀构造方法、可控越狱攻击方法及装置
申请号:CN202511136240
申请日期:2025-08-14
公开号:CN121012660A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种恶意后缀构造方法、可控越狱攻击方法及装置,该方法设计了一种在扩散模型SD中的越狱攻击框架,该越狱攻击方法分别从文本模态和图像模态进行操作。在文本模态学习一个不包含敏感词的可迁移恶意后缀,使用余弦损失函数,在编码器层使恶意后缀和包含显式敏感词的恶意提示语义靠近,将学习到的恶意后缀添加到输入的文本提示的越狱对象之后,将无害的提示转换为敏感图像生成指令。在图像模态,通过设计的安全检查器损失和文本一致损失函数,进行反向传播梯度优化输入的待编辑原始图像,使生成的图像越过安全检查器的检查,生成包含NSFW内容的图像。本方法能够绕过安全检查器的安全限制,实现越狱攻击,揭露目前文生图模型存在的安全漏洞,并对模型的安全保护措施进行评估。
技术关键词
面向多对象 图像特征向量 文本编码器 文本特征向量 编辑 掩膜 序列 场景 生成指令 元素 语义特征 模块 策略 矩阵 概念
系统为您推荐了相关专利信息
1
医疗语音转文本错误纠正方法、装置、设备及介质
错误纠正方法 语音 多模态 预训练模型 文本编码器
2
图像生成方法、装置、设备和存储介质
风格 噪声图像 图像生成方法 随机噪声 生成噪声
3
在线标注系统版本管理方法、装置、设备及存储介质
版本管理方法 标注系统 编辑 感兴趣 图像标识符
4
图文质量评估方法、装置、电子设备和可读介质
图文 打分器 融合策略 文本编码器 多模态
5
图像生成方法、装置及相关设备
图像生成模型 图像生成方法 编码向量 内容概括 解码模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号