基于大模型内生机制操控的模型安全漏洞发现方法及装置

正文

推荐专利

申请号：CN202511034542

申请日期：2025-07-25

公开号：CN120910866A

公开日期：2025-11-07

类型：发明专利

摘要

本发明提出一种基于大模型内生机制操控的模型安全漏洞发现方法和装置，包括：构建由正常提示词和漏洞发现提示词构成的提示词对；选择该大模型前向传播中最早对结果产生影响的神经网络层作为目标层；将该正常提示词和该漏洞发现提示词分别输入该大模型，根据该目标层的隐状态，分别计算接受立场隐状态中心和拒绝立场隐状态中心；使用该接受立场隐状态中心和该拒绝立场隐状态中心，计算拒绝立场指向接受立场的方向向量；将当前对抗性后缀与该漏洞发现请求结合，将结合结果输入该大语言模型，判断该大语言模型输出内容是否违法，若是，则保存当前该结合结果和该输出内容作为漏洞发现结果。

技术关键词

安全漏洞发现方法对抗性信息显示设备机制人工智能模型计算机程序产品序列电子设备字符可读存储介质格式处理器参数

系统为您推荐了相关专利信息

多视角LF-NMRI的水果内部结构三维定量表征方法

定量表征方法三角形面片点云坐标深度学习模型

一种强对流降水的数值模拟方法及系统

强对流数值模拟方法边界层结构计算机可执行指令参数

一种整合五维审评尺度的多模态龙井茶叶智能分级方法

龙井茶叶智能分级方法样本多模态数据

图像路面要素的后处理方法、装置、车辆、存储介质和程序产品

初始轮廓后处理方法路面孔洞特征轮廓

融合迁移学习与峰荷自适应辨识的母线峰值负荷预测方法

母线负荷预测精度损失函数设计历史负荷数据阈值机制

基于大模型内生机制操控的模型安全漏洞发现方法及装置

站点导航

APP 下载