一种基于隐式梯度优化的大语言模型对抗越狱攻击方法

AITNT
正文
推荐专利
一种基于隐式梯度优化的大语言模型对抗越狱攻击方法
申请号:CN202510906532
申请日期:2025-07-02
公开号:CN120806044A
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种基于隐式梯度优化的大语言模型对抗越狱攻击方法,该方法通过Gumbel‑Softmax技术实现对抗性token的连续梯度优化,结合两阶段代理模型筛选机制降低计算成本,并采用动态正则化策略保持语义隐蔽性。系统包含梯度优化模块、代理筛选模块和迁移增强模块,能够有效提升对抗性提示的攻击成功率和跨模型迁移能力。本发明解决了传统对抗攻击方法效率低、隐蔽性差的技术难题,在提高大模型攻击成功率的同时降低了攻击成本,并且有效减少了API调用次数,适用于大语言模型安全测试领域。
技术关键词
对抗性 大语言模型 正则化策略 退火策略 模板 序列 两阶段 语义 可读存储介质 文本 指令 机制 噪声 处理器 有效性 模块 程序 参数 指数 计算机
系统为您推荐了相关专利信息
1
一种两阶段渐进式模态增强机制的RGB-T目标跟踪方法及装置
令牌 两阶段 跟踪方法 多模态特征 多模态协同
2
一种仿生纤毛电子皮肤及其制备方法
柔性线路层 柔性基底表面 传感单元阵列 模板 二甲基硅氧烷
3
一种基于大模型实现跨机构体检报告检查项标准化方法
大语言模型 标准化方法 医疗文本数据 报告 医疗大数据
4
煤炭工业场景的智慧生产调度系统及方法
故障预测模型 调度系统 分发模块 显示设备 设备状态信息
5
融合大模型先验知识的雨雾天候仪表字符识别方法和系统
航海仪表 线段 图谱 字符识别方法 防腐涂层
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号