一种大语言模型越狱提示词的检测方法

AITNT
正文
推荐专利
一种大语言模型越狱提示词的检测方法
申请号:CN202510549773
申请日期:2025-04-29
公开号:CN120409461B
公开日期:2025-12-16
类型:发明专利
摘要
本发明提出了一种新颖的越狱提示检测框架,通过激活和探测两个步骤实现检测,核心思想是通过利用大语言模型的内在价值防御机制来增强检测器的能力,使检测器站在大语言模型的肩膀上。具体来说,在激活阶段,向输入提示添加特殊后缀以激活大语言模型的内在防御机制,放大越狱提示和良性提示在大语言模型内的特征分布差异。在探测阶段,设计一个基于CNN的检测模型来处理激活大语言模型层的隐藏特征,以提取越狱和良性原型,从而有效检测候选提示。通过本发明大语言模型厂家能够仅在一次推理的时间内检测候选提示是否为越狱提示,大大提高了越狱检测的效率和准确率。
技术关键词
大语言模型 输出提示词 原型 多层感知机 排序方法 检测器 传播算法 矩阵 计算方法 超参数 肩膀 阶段 列表 格式 数据 标签 代表 框架 指令 基础
系统为您推荐了相关专利信息
1
接口测试方法、装置、设备、存储介质及产品
接口测试方法 自动化测试框架 待测接口 大语言模型 计算机程序指令
2
一种基于语义意图对齐学习的假新闻检测方法及装置
假新闻检测方法 语义意图 多层感知机 分类特征 信息显示设备
3
一种多活动场景下的小样本类增量步态识别方法
原型 步态识别方法 样本 特征提取器 标签
4
基于神经网络和排序机制的图谱构建方法、系统
图谱构建方法 知识图谱框架 双塔结构 生成知识图谱 机制
5
并行分支特征交互的遥感图像建筑物变化检测系统及方法
建筑物变化检测 全局特征提取 局部特征提取 全局特征融合 变化检测模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号