基于正向语境嵌入越狱攻击提示词的大模型安全检测方法

AITNT
正文
推荐专利
基于正向语境嵌入越狱攻击提示词的大模型安全检测方法
申请号:CN202511217851
申请日期:2025-08-28
公开号:CN120744915B
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了基于正向语境嵌入越狱攻击提示词的大模型安全检测方法,包括:获取原始越狱攻击提示词;对原始越狱攻击提示词进行分类,并基于类别对原始越狱攻击提示词进行改写,得到改写提示词;选取正向回答内容和恶意回答内容,将改写提示词进行结构引导的语义混合调控,经强化学习修正,得到正向语境嵌入的越狱攻击提示词;将正向语境嵌入的越狱攻击提示词输入待测大模型,针对待测大模型进行安全检测。该方法将原始具有攻击性或违规目的的提示词,通过语义重构与语境包装的方式,嵌入到一段具有正面导向意义的文本上下文中,从而显著降低被模型后置安全护栏(如敏感词检测器、内容过滤器)识别拦截的概率,提升大模型安全检测的准确性。
技术关键词
混合式结构 语义 生成结构 模板 场景 处理器 计算机程序产品 指令 监测模块 护栏 标志 可读存储介质 检测器 电子设备 过滤器 重构 文本
系统为您推荐了相关专利信息
1
文本处理方法、装置、设备及存储介质
自然语言文本 生成自然语言 元素 信令 文本处理方法
2
一种改进的联合仿真对象模型开发方法、装置和设备
联合仿真系统 对象 仿真数据 层级 模型开发方法
3
一种基于模板匹配的密码侧信道波形自动化切分方法
波形 生成模板 公钥密码算法 信道 索引
4
一种基于模型联动的沉浸式数字交互虚拟体验系统
虚拟体验系统 数字交互 视频显示模块 灯光模块 智能配电模块
5
应用于智能人机交互的交通综合查询优化方法及系统
查询优化方法 智能人机交互 交通 设备控制 多模态特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号