一种可迁移的轻量级大语言模型越狱防御方法

正文

推荐专利

申请号：CN202510729611

申请日期：2025-06-03

公开号：CN120597268A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开一种可迁移的轻量级大语言模型越狱防御方法，属于电数字处理技术领域，适用于大模型安全后缀的生成。现有的基于提示的方法由于过度拟合受害者模型陷入局部极小值导致迁移性差的问题，在现实场景下，无法推广到多个模型。为了提高迁移性，我们提出了一种可迁移的轻量级大语言模型越狱防御方法，能够将优化的安全提示牵引到平坦极小值，而处于平坦区域的安全提示往往存在更好的迁移性。具体来说，我们在方法主要分为两步，第一步是搜索安全提示周围的最大损失点；第二步是将最大损失点纳入到优化目标中，启发式地牵引到平坦区域。所提出的方法有助于提升对越狱攻击的防御性能，兼顾防御机制在多种语言模型间的适应能力，具有广泛的应用前景。

技术关键词

大语言模型样本定义超参数对抗性序列文本标记场景

系统为您推荐了相关专利信息

基于大语言模型的SQL注入检测方法、系统、设备及介质

大语言模型语句数据库动态查询子模块分词

基于孤立森林和LOF的实验室能力验证统计分析方法

实验室能力验证孤立森林算法统计分析方法阈值机制 LOF算法

一种基于随机森林的岩石中金属元素含量分布显示方法

分布显示方法随机森林模型交叉验证方法元素计算机程序指令

一种继电保护装置故障诊断方法

继电保护装置历史故障数据故障诊断模型故障诊断方法生成对抗网络模型

折叠翼机构的概率盒可靠性分析方法、装置及计算机设备

Kriging模型折叠翼机构可靠性分析方法样本蒙特卡洛

一种可迁移的轻量级大语言模型越狱防御方法

站点导航

APP 下载