大语言模型越狱攻击的防御方法、系统、设备和存储介质

AITNT
正文
推荐专利
大语言模型越狱攻击的防御方法、系统、设备和存储介质
申请号:CN202510906950
申请日期:2025-07-02
公开号:CN120408608B
公开日期:2025-08-26
类型:发明专利
摘要
本发明涉及模型防御技术领域,公开了一种大语言模型越狱攻击的防御方法、系统、设备和存储介质,包括通过探针采集模型采集各个解码器层输出的高维中间特征并进行降维,得到低维中间特征;计算低维中间特征与有害特征中心之间的第一距离,以及与安全特征中心之间的第二距离,根据第一距离与第二距离之间的差值,得到向量距离差异,判断是否存在越狱攻击风险;响应于存在风险,以关键层的向量距离差异的最大化为目标函数,构建扰动优化模型,得到最优扰动项,并添加至对应的高维中间特征,得到安全中间特征。本发明提高了电力系统中大语言模型的实时动态防御能力、可解释性和计算效率,实现了大语言模型的对抗调整与稳定性之间的有效平衡。
技术关键词
大语言模型 解码器 特征提取模块 基准 探针 前馈神经网络 线性插值法 风险 防御系统 转换器 处理器 参数 计算机设备 电力系统 可读存储介质 文本 存储器 策略 注意力
系统为您推荐了相关专利信息
1
智能运维方法、装置、计算机设备及存储介质
智能运维方法 故障特征 运维知识库 大语言模型 运维工具
2
LED芯片测试固晶一体化系统及LED器件
一体化系统 劈裂装置 测试机构 固晶装置 LED封装组件
3
一种用于混凝土浇筑的质量检测和分析监控系统
分析监控系统 数据分析模块 数据采集模块 参数 混凝土浇筑技术
4
一种基于交叉注意力机制的小样本人体动作识别方法
人体动作识别方法 交叉注意力机制 原型 样本 动作识别模型
5
半导体缺陷检测模型训练方法及半导体缺陷检测方法
缺陷类别 半导体缺陷检测 模型训练方法 半导体晶圆缺陷 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号