一种大语言模型越狱提示词的检测方法

正文

推荐专利

一种大语言模型越狱提示词的检测方法

申请号：CN202510549773

申请日期：2025-04-29

公开号：CN120409461B

公开日期：2025-12-16

类型：发明专利

摘要

本发明提出了一种新颖的越狱提示检测框架，通过激活和探测两个步骤实现检测，核心思想是通过利用大语言模型的内在价值防御机制来增强检测器的能力，使检测器站在大语言模型的肩膀上。具体来说，在激活阶段，向输入提示添加特殊后缀以激活大语言模型的内在防御机制，放大越狱提示和良性提示在大语言模型内的特征分布差异。在探测阶段，设计一个基于CNN的检测模型来处理激活大语言模型层的隐藏特征，以提取越狱和良性原型，从而有效检测候选提示。通过本发明大语言模型厂家能够仅在一次推理的时间内检测候选提示是否为越狱提示，大大提高了越狱检测的效率和准确率。

技术关键词

大语言模型输出提示词原型多层感知机排序方法检测器传播算法矩阵计算方法超参数肩膀阶段列表格式数据标签代表框架指令基础

系统为您推荐了相关专利信息

接口测试方法、装置、设备、存储介质及产品

接口测试方法自动化测试框架待测接口大语言模型计算机程序指令

一种基于语义意图对齐学习的假新闻检测方法及装置

假新闻检测方法语义意图多层感知机分类特征信息显示设备

一种多活动场景下的小样本类增量步态识别方法

原型步态识别方法样本特征提取器标签

基于神经网络和排序机制的图谱构建方法、系统

图谱构建方法知识图谱框架双塔结构生成知识图谱机制

并行分支特征交互的遥感图像建筑物变化检测系统及方法

建筑物变化检测全局特征提取局部特征提取全局特征融合变化检测模型

一种大语言模型越狱提示词的检测方法

站点导航

APP 下载