摘要
本发明提出了一种新颖的越狱提示检测框架,通过激活和探测两个步骤实现检测,核心思想是通过利用大语言模型的内在价值防御机制来增强检测器的能力,使检测器站在大语言模型的肩膀上。具体来说,在激活阶段,向输入提示添加特殊后缀以激活大语言模型的内在防御机制,放大越狱提示和良性提示在大语言模型内的特征分布差异。在探测阶段,设计一个基于CNN的检测模型来处理激活大语言模型层的隐藏特征,以提取越狱和良性原型,从而有效检测候选提示。通过本发明大语言模型厂家能够仅在一次推理的时间内检测候选提示是否为越狱提示,大大提高了越狱检测的效率和准确率。
技术关键词
大语言模型
输出提示词
原型
多层感知机
排序方法
检测器
传播算法
矩阵
计算方法
超参数
肩膀
阶段
列表
格式
数据
标签
代表
框架
指令
基础
系统为您推荐了相关专利信息
接口测试方法
自动化测试框架
待测接口
大语言模型
计算机程序指令
假新闻检测方法
语义意图
多层感知机
分类特征
信息显示设备
图谱构建方法
知识图谱框架
双塔结构
生成知识图谱
机制
建筑物变化检测
全局特征提取
局部特征提取
全局特征融合
变化检测模型