一种大模型越狱攻击测试样例生成方法及系统

AITNT
正文
推荐专利
一种大模型越狱攻击测试样例生成方法及系统
申请号:CN202510481810
申请日期:2025-04-17
公开号:CN119988242B
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种大模型越狱攻击测试样例生成方法及系统,该方法首先选择若干预训练LLM模型做为子模型的基座模型,并构建去安全保护子模型训练数据集、越狱评判子模型训练数据集和任务分解子模型训练数据集,分别训练去安全保护子模型、越狱评判子模型和任务分解子模型。其次根据训练后的去安全保护子模型,构建意图隐藏子模型。然后基于意图隐藏子模型,获得越狱任务评判四元组,并构建奖励函数,对任务分解子模型实施强化学习。最后使用的奖励函数对任务分解子模型进行迭代训练,并装配子模型组件,完成自动化越狱测试样例生成。本发明通过搜索多种不同的攻击路径,可更全面地评估LLM的安全性。
技术关键词
意图 生成方法 基座 数据 提示技术 隐藏方法 大语言模型 基础 生成系统 模块 参数 训练集 样本 有效性 语义 信号 逻辑 标签 接口 指令
系统为您推荐了相关专利信息
1
设计管理系统中用户与数据获取模式匹配方法
设计管理系统 模式匹配方法 访问日志数据 指数 信息匹配技术
2
界面生成方法、装置、设备及存储介质
深度学习模型 界面生成方法 布局 数据 样本
3
基于源网荷储协同优化的园区能源调控方法
能源调控方法 优化控制策略 发电设备发电量 储能系统 频率
4
一种用于口腔内科牙齿修复的数据采集方法
牙齿特征 数据采集方法 内科 图像采集器 手持式数据采集
5
甲状腺超声图像最大横纵切面并行识别方法、装置和设备
GPU并行计算 深度学习模型 甲状腺超声图像 并行识别方法 视频流
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号