基于越狱攻击的大模型检测方法及系统

正文

推荐专利

基于越狱攻击的大模型检测方法及系统

申请号：CN202510203998

申请日期：2025-02-24

公开号：CN120297358A

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开一种基于越狱攻击的大模型检测方法及系统，属于大语言模型安全技术领域。所述方法包括：构建示例池和示例选择模型；在所述示例池上对所述示例选择模型进行训练；使用训练后的示例选择模型为输入指令在所述示例池中选择示例；基于所述输入指令和选择的示例对目标大模型进行攻击，以获取目标大模型的越狱攻击检测结果。本发明通过增强越狱攻击的有效性和效率，对大模型进行更有效的检测。

技术关键词

模型检测方法计算机程序指令神经网络模型构建模型检测系统贪婪策略变换器可读存储介质大语言模型电子设备处理器文本线性有效性参数模块存储器

基于越狱攻击的大模型检测方法及系统

站点导航

APP 下载