摘要
本发明是一种基于思维链的大模型安全防护方法,适用于增强各类大语言模型的防御能力且无需额外的后训练开销。本发明涉及大模型安全防护技术领域,通过大语言模型安全防御系统提示词增强,确保生成安全的回复;基于零样本思维链的安全防御后缀,应对越狱攻击;通过计算越狱攻击成功率,来对大语言模型的安全性进行评估。本发明采用的基于思维链的大语言模型安全防护方法包含了安全系统提示词和零样本思维链两部分。本发明不引入额外的计算成本,而是充分利用大语言模型的推理能力来抵御越狱攻击,极大地增强了大语言模型的安全防护能力,确保大模型在不同应用场景下的稳定运行和安全使用。
技术关键词
大语言模型
防护方法
防御系统
样本
修改系统
逻辑分析
防护系统
模块
处理器
计算机设备
场景
可读存储介质
存储器
定义
文本
机制
阶段
程序
系统为您推荐了相关专利信息
三维人脸表情
智能体模型
语音特征
情绪特征
三维人脸动画
数字高程模型
工程地质勘查
地形特征
遥感技术
激光雷达
一体化优化方法
轴流风机
多部件
拉丁超立方采样
数值仿真
模型训练方法
可见光图像
跨模态
生成器网络
模型训练系统