摘要
本发明涉及模型防御技术领域,公开了一种大语言模型越狱攻击的防御方法、系统、设备和存储介质,包括通过探针采集模型采集各个解码器层输出的高维中间特征并进行降维,得到低维中间特征;计算低维中间特征与有害特征中心之间的第一距离,以及与安全特征中心之间的第二距离,根据第一距离与第二距离之间的差值,得到向量距离差异,判断是否存在越狱攻击风险;响应于存在风险,以关键层的向量距离差异的最大化为目标函数,构建扰动优化模型,得到最优扰动项,并添加至对应的高维中间特征,得到安全中间特征。本发明提高了电力系统中大语言模型的实时动态防御能力、可解释性和计算效率,实现了大语言模型的对抗调整与稳定性之间的有效平衡。
技术关键词
大语言模型
解码器
特征提取模块
基准
探针
前馈神经网络
线性插值法
风险
防御系统
转换器
处理器
参数
计算机设备
电力系统
可读存储介质
文本
存储器
策略
注意力
系统为您推荐了相关专利信息
智能运维方法
故障特征
运维知识库
大语言模型
运维工具
一体化系统
劈裂装置
测试机构
固晶装置
LED封装组件
分析监控系统
数据分析模块
数据采集模块
参数
混凝土浇筑技术
人体动作识别方法
交叉注意力机制
原型
样本
动作识别模型
缺陷类别
半导体缺陷检测
模型训练方法
半导体晶圆缺陷
图像