摘要
一种基于大语言模型Top区域的连续越狱提示检测方法及系统,属于梯度检测领域。本发明针对大语言模型(LLM)的连续对话利用梯度检测来检测越狱提示。该方法分为离线校准阶段以及在线测试阶段。首先,在离线校准阶段,针对LLM中与语言能力相关的Top区域进行梯度检测,构建不安全提示参考梯度,以便对单点提示进行及时检测;其次,在在线测试阶段,引入PCA+时序CUSUM来跟踪连续对话的安全偏离行为,捕捉那些需要多个提示才能显现出来的、渐进式的、累积性的安全偏离,预防模型在逐步诱导下绕过对齐机制生成非法有害内容。
技术关键词
大语言模型
参数校准
切片
数据处理模块
策略
松弛
协方差矩阵
时序
基础
离线
在线
特征值
标记
阶段
基线
会话
系统为您推荐了相关专利信息
荧光
训练算法模型
数据处理模块
异常数据
存储模块
鞋底部件
金属粉末增材
运动鞋
钴铬合金材料
金属材料增材
加密网络流量
大语言模型
分类方法
分类任务模型
序列