一种基于大语言模型Top区域的连续越狱提示检测方法及系统

正文

推荐专利

申请号：CN202511115312

申请日期：2025-08-11

公开号：CN121009471A

公开日期：2025-11-25

类型：发明专利

摘要

一种基于大语言模型Top区域的连续越狱提示检测方法及系统，属于梯度检测领域。本发明针对大语言模型(LLM)的连续对话利用梯度检测来检测越狱提示。该方法分为离线校准阶段以及在线测试阶段。首先，在离线校准阶段，针对LLM中与语言能力相关的Top区域进行梯度检测，构建不安全提示参考梯度，以便对单点提示进行及时检测；其次，在在线测试阶段，引入PCA+时序CUSUM来跟踪连续对话的安全偏离行为，捕捉那些需要多个提示才能显现出来的、渐进式的、累积性的安全偏离，预防模型在逐步诱导下绕过对齐机制生成非法有害内容。

技术关键词

大语言模型参数校准切片数据处理模块策略松弛协方差矩阵时序基础离线在线特征值标记阶段基线会话

系统为您推荐了相关专利信息

一种PCR的CT值检测方法及系统

荧光训练算法模型数据处理模块异常数据存储模块

一种双机集批生产优化控制方法

优化控制方法热轧工序板坯双机协同工作钢材

用于运动鞋的鞋底部件及其制造方法和具有其的鞋底结构

鞋底部件金属粉末增材运动鞋钴铬合金材料金属材料增材

一种立体集成芯片、立体集成芯片的EMC塑封方法

集成芯片塑封方法焊接结构多层立体堆叠方法

一种基于大语言模型的加密网络流量分类方法

加密网络流量大语言模型分类方法分类任务模型序列

一种基于大语言模型Top区域的连续越狱提示检测方法及系统

站点导航

APP 下载