一种基于隐式梯度优化的大语言模型对抗越狱攻击方法

正文

推荐专利

申请号：CN202510906532

申请日期：2025-07-02

公开号：CN120806044A

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种基于隐式梯度优化的大语言模型对抗越狱攻击方法，该方法通过Gumbel‑Softmax技术实现对抗性token的连续梯度优化，结合两阶段代理模型筛选机制降低计算成本，并采用动态正则化策略保持语义隐蔽性。系统包含梯度优化模块、代理筛选模块和迁移增强模块，能够有效提升对抗性提示的攻击成功率和跨模型迁移能力。本发明解决了传统对抗攻击方法效率低、隐蔽性差的技术难题，在提高大模型攻击成功率的同时降低了攻击成本，并且有效减少了API调用次数，适用于大语言模型安全测试领域。

技术关键词

对抗性大语言模型正则化策略退火策略模板序列两阶段语义可读存储介质文本指令机制噪声处理器有效性模块程序参数指数计算机

系统为您推荐了相关专利信息

知识路由方法及装置

关键词分段语句语义可读存储介质

问答场景中敏感信息的检测方法和内容展示方法

问答场景内容展示方法大语言模型文本展示系统

车辆零件防抓错方法、控制器、系统及设备

光电感应开关车辆零件夹具控制器

一种面向机械设计知识长期记忆的AI处理方法及系统

记忆图表多智能体协同非结构化文本信息逻辑推理技术

半导体实验室的应急决策方法、装置、设备及介质

实时系统数据风险评估模型训练样本集半导体应急决策方法

一种基于隐式梯度优化的大语言模型对抗越狱攻击方法

站点导航

APP 下载