一种可迁移的轻量级大语言模型越狱防御方法

AITNT
正文
推荐专利
一种可迁移的轻量级大语言模型越狱防御方法
申请号:CN202510729611
申请日期:2025-06-03
公开号:CN120597268A
公开日期:2025-09-05
类型:发明专利
摘要
本发明公开一种可迁移的轻量级大语言模型越狱防御方法,属于电数字处理技术领域,适用于大模型安全后缀的生成。现有的基于提示的方法由于过度拟合受害者模型陷入局部极小值导致迁移性差的问题,在现实场景下,无法推广到多个模型。为了提高迁移性,我们提出了一种可迁移的轻量级大语言模型越狱防御方法,能够将优化的安全提示牵引到平坦极小值,而处于平坦区域的安全提示往往存在更好的迁移性。具体来说,我们在方法主要分为两步,第一步是搜索安全提示周围的最大损失点;第二步是将最大损失点纳入到优化目标中,启发式地牵引到平坦区域。所提出的方法有助于提升对越狱攻击的防御性能,兼顾防御机制在多种语言模型间的适应能力,具有广泛的应用前景。
技术关键词
大语言模型 样本 定义 超参数 对抗性 序列 文本 标记 场景
系统为您推荐了相关专利信息
1
基于大语言模型的SQL注入检测方法、系统、设备及介质
大语言模型 语句 数据库动态查询 子模块 分词
2
基于孤立森林和LOF的实验室能力验证统计分析方法
实验室能力验证 孤立森林算法 统计分析方法 阈值机制 LOF算法
3
一种基于随机森林的岩石中金属元素含量分布显示方法
分布显示方法 随机森林模型 交叉验证方法 元素 计算机程序指令
4
一种继电保护装置故障诊断方法
继电保护装置 历史故障数据 故障诊断模型 故障诊断方法 生成对抗网络模型
5
折叠翼机构的概率盒可靠性分析方法、装置及计算机设备
Kriging模型 折叠翼机构 可靠性分析方法 样本 蒙特卡洛
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号