一种基于大语言模型Top区域的连续越狱提示检测方法及系统

AITNT
正文
推荐专利
一种基于大语言模型Top区域的连续越狱提示检测方法及系统
申请号:CN202511115312
申请日期:2025-08-11
公开号:CN121009471A
公开日期:2025-11-25
类型:发明专利
摘要
一种基于大语言模型Top区域的连续越狱提示检测方法及系统,属于梯度检测领域。本发明针对大语言模型(LLM)的连续对话利用梯度检测来检测越狱提示。该方法分为离线校准阶段以及在线测试阶段。首先,在离线校准阶段,针对LLM中与语言能力相关的Top区域进行梯度检测,构建不安全提示参考梯度,以便对单点提示进行及时检测;其次,在在线测试阶段,引入PCA+时序CUSUM来跟踪连续对话的安全偏离行为,捕捉那些需要多个提示才能显现出来的、渐进式的、累积性的安全偏离,预防模型在逐步诱导下绕过对齐机制生成非法有害内容。
技术关键词
大语言模型 参数校准 切片 数据处理模块 策略 松弛 协方差矩阵 时序 基础 离线 在线 特征值 标记 阶段 基线 会话
系统为您推荐了相关专利信息
1
一种PCR的CT值检测方法及系统
荧光 训练算法模型 数据处理模块 异常数据 存储模块
2
一种双机集批生产优化控制方法
优化控制方法 热轧工序 板坯 双机协同工作 钢材
3
用于运动鞋的鞋底部件及其制造方法和具有其的鞋底结构
鞋底部件 金属粉末增材 运动鞋 钴铬合金材料 金属材料增材
4
一种立体集成芯片、立体集成芯片的EMC塑封方法
集成芯片 塑封方法 焊接结构 多层立体 堆叠方法
5
一种基于大语言模型的加密网络流量分类方法
加密网络流量 大语言模型 分类方法 分类任务模型 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号