摘要
本发明涉及一种基于危险解码的大语言模型越狱方法,基于大语言模型通过一个危险模型的解码路径来引导目标模型的token生成,在经过令牌空间的重组得到更新后的令牌空间后,按照确定好的解码方式进行解码即可生成一个token,判断是否越狱成功的标准为生成的回复内容是否有效的回复了恶意提示词。本发明通过微调一个小模型变成危险模型,利用危险模型令牌空间中肯定回复的token概率较高这一特点去更新目标模型的令牌空间,使其最终进行肯定回复恶意提示词。这种方法降低了时间的消耗,提高了越狱攻击成功率,可以很好的对开源模型进行越狱,相比于现有技术,通用性更强。
技术关键词
令牌
解码方式
大语言模型
超参数
阶段
危害性
格式
数据