摘要
本发明公开了一种大模型越狱攻击测试样例生成方法及系统,该方法首先选择若干预训练LLM模型做为子模型的基座模型,并构建去安全保护子模型训练数据集、越狱评判子模型训练数据集和任务分解子模型训练数据集,分别训练去安全保护子模型、越狱评判子模型和任务分解子模型。其次根据训练后的去安全保护子模型,构建意图隐藏子模型。然后基于意图隐藏子模型,获得越狱任务评判四元组,并构建奖励函数,对任务分解子模型实施强化学习。最后使用的奖励函数对任务分解子模型进行迭代训练,并装配子模型组件,完成自动化越狱测试样例生成。本发明通过搜索多种不同的攻击路径,可更全面地评估LLM的安全性。
技术关键词
意图
生成方法
基座
数据
提示技术
隐藏方法
大语言模型
基础
生成系统
模块
参数
训练集
样本
有效性
语义
信号
逻辑
标签
接口
指令
系统为您推荐了相关专利信息
设计管理系统
模式匹配方法
访问日志数据
指数
信息匹配技术
能源调控方法
优化控制策略
发电设备发电量
储能系统
频率
牙齿特征
数据采集方法
内科
图像采集器
手持式数据采集
GPU并行计算
深度学习模型
甲状腺超声图像
并行识别方法
视频流