摘要
本发明公开一种可迁移的轻量级大语言模型越狱防御方法,属于电数字处理技术领域,适用于大模型安全后缀的生成。现有的基于提示的方法由于过度拟合受害者模型陷入局部极小值导致迁移性差的问题,在现实场景下,无法推广到多个模型。为了提高迁移性,我们提出了一种可迁移的轻量级大语言模型越狱防御方法,能够将优化的安全提示牵引到平坦极小值,而处于平坦区域的安全提示往往存在更好的迁移性。具体来说,我们在方法主要分为两步,第一步是搜索安全提示周围的最大损失点;第二步是将最大损失点纳入到优化目标中,启发式地牵引到平坦区域。所提出的方法有助于提升对越狱攻击的防御性能,兼顾防御机制在多种语言模型间的适应能力,具有广泛的应用前景。
技术关键词
大语言模型
样本
定义
超参数
对抗性
序列
文本
标记
场景
系统为您推荐了相关专利信息
实验室能力验证
孤立森林算法
统计分析方法
阈值机制
LOF算法
分布显示方法
随机森林模型
交叉验证方法
元素
计算机程序指令
继电保护装置
历史故障数据
故障诊断模型
故障诊断方法
生成对抗网络模型
Kriging模型
折叠翼机构
可靠性分析方法
样本
蒙特卡洛