基于大模型内生机制操控的模型安全漏洞发现方法及装置

AITNT
正文
推荐专利
基于大模型内生机制操控的模型安全漏洞发现方法及装置
申请号:CN202511034542
申请日期:2025-07-25
公开号:CN120910866A
公开日期:2025-11-07
类型:发明专利
摘要
本发明提出一种基于大模型内生机制操控的模型安全漏洞发现方法和装置,包括:构建由正常提示词和漏洞发现提示词构成的提示词对;选择该大模型前向传播中最早对结果产生影响的神经网络层作为目标层;将该正常提示词和该漏洞发现提示词分别输入该大模型,根据该目标层的隐状态,分别计算接受立场隐状态中心和拒绝立场隐状态中心;使用该接受立场隐状态中心和该拒绝立场隐状态中心,计算拒绝立场指向接受立场的方向向量;将当前对抗性后缀与该漏洞发现请求结合,将结合结果输入该大语言模型,判断该大语言模型输出内容是否违法,若是,则保存当前该结合结果和该输出内容作为漏洞发现结果。
技术关键词
安全漏洞发现方法 对抗性 信息显示设备 机制 人工智能模型 计算机程序产品 序列 电子设备 字符 可读存储介质 格式 处理器 参数
系统为您推荐了相关专利信息
1
多视角LF-NMRI的水果内部结构三维定量表征方法
定量表征方法 三角形面片 点云 坐标 深度学习模型
2
一种强对流降水的数值模拟方法及系统
强对流 数值模拟方法 边界层结构 计算机可执行指令 参数
3
一种整合五维审评尺度的多模态龙井茶叶智能分级方法
龙井茶叶 智能分级方法 样本 多模态 数据
4
图像路面要素的后处理方法、装置、车辆、存储介质和程序产品
初始轮廓 后处理方法 路面 孔洞 特征轮廓
5
融合迁移学习与峰荷自适应辨识的母线峰值负荷预测方法
母线 负荷预测精度 损失函数设计 历史负荷数据 阈值机制
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号