一种基于危险解码的大语言模型越狱方法

正文

推荐专利

一种基于危险解码的大语言模型越狱方法

申请号：CN202411836250

申请日期：2024-12-13

公开号：CN119918058A

公开日期：2025-05-02

类型：发明专利

摘要

本发明涉及一种基于危险解码的大语言模型越狱方法，基于大语言模型通过一个危险模型的解码路径来引导目标模型的token生成，在经过令牌空间的重组得到更新后的令牌空间后，按照确定好的解码方式进行解码即可生成一个token，判断是否越狱成功的标准为生成的回复内容是否有效的回复了恶意提示词。本发明通过微调一个小模型变成危险模型，利用危险模型令牌空间中肯定回复的token概率较高这一特点去更新目标模型的令牌空间，使其最终进行肯定回复恶意提示词。这种方法降低了时间的消耗，提高了越狱攻击成功率，可以很好的对开源模型进行越狱，相比于现有技术，通用性更强。

技术关键词

令牌解码方式大语言模型超参数阶段危害性格式数据

一种基于危险解码的大语言模型越狱方法

站点导航

APP 下载