大语言模型越狱攻击的防御方法、系统、设备和存储介质

正文

推荐专利

申请号：CN202510906950

申请日期：2025-07-02

公开号：CN120408608B

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及模型防御技术领域，公开了一种大语言模型越狱攻击的防御方法、系统、设备和存储介质，包括通过探针采集模型采集各个解码器层输出的高维中间特征并进行降维，得到低维中间特征；计算低维中间特征与有害特征中心之间的第一距离，以及与安全特征中心之间的第二距离，根据第一距离与第二距离之间的差值，得到向量距离差异，判断是否存在越狱攻击风险；响应于存在风险，以关键层的向量距离差异的最大化为目标函数，构建扰动优化模型，得到最优扰动项，并添加至对应的高维中间特征，得到安全中间特征。本发明提高了电力系统中大语言模型的实时动态防御能力、可解释性和计算效率，实现了大语言模型的对抗调整与稳定性之间的有效平衡。

技术关键词

大语言模型解码器特征提取模块基准探针前馈神经网络线性插值法风险防御系统转换器处理器参数计算机设备电力系统可读存储介质文本存储器策略注意力

系统为您推荐了相关专利信息

智能运维方法、装置、计算机设备及存储介质

智能运维方法故障特征运维知识库大语言模型运维工具

LED芯片测试固晶一体化系统及LED器件

一体化系统劈裂装置测试机构固晶装置 LED封装组件

一种用于混凝土浇筑的质量检测和分析监控系统

分析监控系统数据分析模块数据采集模块参数混凝土浇筑技术

一种基于交叉注意力机制的小样本人体动作识别方法

人体动作识别方法交叉注意力机制原型样本动作识别模型

半导体缺陷检测模型训练方法及半导体缺陷检测方法

缺陷类别半导体缺陷检测模型训练方法半导体晶圆缺陷图像

大语言模型越狱攻击的防御方法、系统、设备和存储介质

站点导航

APP 下载