摘要
本发明公开一种基于越狱攻击的大模型检测方法及系统,属于大语言模型安全技术领域。所述方法包括:构建示例池和示例选择模型;在所述示例池上对所述示例选择模型进行训练;使用训练后的示例选择模型为输入指令在所述示例池中选择示例;基于所述输入指令和选择的示例对目标大模型进行攻击,以获取目标大模型的越狱攻击检测结果。本发明通过增强越狱攻击的有效性和效率,对大模型进行更有效的检测。
技术关键词
模型检测方法
计算机程序指令
神经网络模型构建
模型检测系统
贪婪策略
变换器
可读存储介质
大语言模型
电子设备
处理器
文本
线性
有效性
参数
模块
存储器