一种基于隐式梯度优化的大语言模型对抗越狱攻击方法

AITNT
正文
推荐专利
一种基于隐式梯度优化的大语言模型对抗越狱攻击方法
申请号:CN202510906532
申请日期:2025-07-02
公开号:CN120806044A
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种基于隐式梯度优化的大语言模型对抗越狱攻击方法,该方法通过Gumbel‑Softmax技术实现对抗性token的连续梯度优化,结合两阶段代理模型筛选机制降低计算成本,并采用动态正则化策略保持语义隐蔽性。系统包含梯度优化模块、代理筛选模块和迁移增强模块,能够有效提升对抗性提示的攻击成功率和跨模型迁移能力。本发明解决了传统对抗攻击方法效率低、隐蔽性差的技术难题,在提高大模型攻击成功率的同时降低了攻击成本,并且有效减少了API调用次数,适用于大语言模型安全测试领域。
技术关键词
对抗性 大语言模型 正则化策略 退火策略 模板 序列 两阶段 语义 可读存储介质 文本 指令 机制 噪声 处理器 有效性 模块 程序 参数 指数 计算机
系统为您推荐了相关专利信息
1
知识路由方法及装置
关键词 分段 语句 语义 可读存储介质
2
问答场景中敏感信息的检测方法和内容展示方法
问答场景 内容展示方法 大语言模型 文本 展示系统
3
车辆零件防抓错方法、控制器、系统及设备
光电感应开关 车辆 零件 夹具 控制器
4
一种面向机械设计知识长期记忆的AI处理方法及系统
记忆 图表 多智能体协同 非结构化文本信息 逻辑推理技术
5
半导体实验室的应急决策方法、装置、设备及介质
实时系统数据 风险评估模型 训练样本集 半导体 应急决策方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号