一种大模型越狱攻击测试样例生成方法及系统

正文

推荐专利

申请号：CN202510481810

申请日期：2025-04-17

公开号：CN119988242B

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种大模型越狱攻击测试样例生成方法及系统，该方法首先选择若干预训练LLM模型做为子模型的基座模型，并构建去安全保护子模型训练数据集、越狱评判子模型训练数据集和任务分解子模型训练数据集，分别训练去安全保护子模型、越狱评判子模型和任务分解子模型。其次根据训练后的去安全保护子模型，构建意图隐藏子模型。然后基于意图隐藏子模型，获得越狱任务评判四元组，并构建奖励函数，对任务分解子模型实施强化学习。最后使用的奖励函数对任务分解子模型进行迭代训练，并装配子模型组件，完成自动化越狱测试样例生成。本发明通过搜索多种不同的攻击路径，可更全面地评估LLM的安全性。

技术关键词

意图生成方法基座数据提示技术隐藏方法大语言模型基础生成系统模块参数训练集样本有效性语义信号逻辑标签接口指令

系统为您推荐了相关专利信息

设计管理系统中用户与数据获取模式匹配方法

设计管理系统模式匹配方法访问日志数据指数信息匹配技术

界面生成方法、装置、设备及存储介质

深度学习模型界面生成方法布局数据样本

基于源网荷储协同优化的园区能源调控方法

能源调控方法优化控制策略发电设备发电量储能系统频率

一种用于口腔内科牙齿修复的数据采集方法

牙齿特征数据采集方法内科图像采集器手持式数据采集

甲状腺超声图像最大横纵切面并行识别方法、装置和设备

GPU并行计算深度学习模型甲状腺超声图像并行识别方法视频流

一种大模型越狱攻击测试样例生成方法及系统

站点导航

APP 下载