摘要
本发明提出一种基于大模型内生机制操控的模型安全漏洞发现方法和装置,包括:构建由正常提示词和漏洞发现提示词构成的提示词对;选择该大模型前向传播中最早对结果产生影响的神经网络层作为目标层;将该正常提示词和该漏洞发现提示词分别输入该大模型,根据该目标层的隐状态,分别计算接受立场隐状态中心和拒绝立场隐状态中心;使用该接受立场隐状态中心和该拒绝立场隐状态中心,计算拒绝立场指向接受立场的方向向量;将当前对抗性后缀与该漏洞发现请求结合,将结合结果输入该大语言模型,判断该大语言模型输出内容是否违法,若是,则保存当前该结合结果和该输出内容作为漏洞发现结果。
技术关键词
安全漏洞发现方法
对抗性
信息显示设备
机制
人工智能模型
计算机程序产品
序列
电子设备
字符
可读存储介质
格式
处理器
参数
系统为您推荐了相关专利信息
定量表征方法
三角形面片
点云
坐标
深度学习模型
强对流
数值模拟方法
边界层结构
计算机可执行指令
参数
母线
负荷预测精度
损失函数设计
历史负荷数据
阈值机制