基于正向语境嵌入越狱攻击提示词的大模型安全检测方法

正文

推荐专利

申请号：CN202511217851

申请日期：2025-08-28

公开号：CN120744915B

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了基于正向语境嵌入越狱攻击提示词的大模型安全检测方法，包括：获取原始越狱攻击提示词；对原始越狱攻击提示词进行分类，并基于类别对原始越狱攻击提示词进行改写，得到改写提示词；选取正向回答内容和恶意回答内容，将改写提示词进行结构引导的语义混合调控，经强化学习修正，得到正向语境嵌入的越狱攻击提示词；将正向语境嵌入的越狱攻击提示词输入待测大模型，针对待测大模型进行安全检测。该方法将原始具有攻击性或违规目的的提示词，通过语义重构与语境包装的方式，嵌入到一段具有正面导向意义的文本上下文中，从而显著降低被模型后置安全护栏（如敏感词检测器、内容过滤器）识别拦截的概率，提升大模型安全检测的准确性。

技术关键词

混合式结构语义生成结构模板场景处理器计算机程序产品指令监测模块护栏标志可读存储介质检测器电子设备过滤器重构文本

系统为您推荐了相关专利信息

文本处理方法、装置、设备及存储介质

自然语言文本生成自然语言元素信令文本处理方法

一种改进的联合仿真对象模型开发方法、装置和设备

联合仿真系统对象仿真数据层级模型开发方法

一种基于模板匹配的密码侧信道波形自动化切分方法

波形生成模板公钥密码算法信道索引

一种基于模型联动的沉浸式数字交互虚拟体验系统

虚拟体验系统数字交互视频显示模块灯光模块智能配电模块

应用于智能人机交互的交通综合查询优化方法及系统

查询优化方法智能人机交互交通设备控制多模态特征

基于正向语境嵌入越狱攻击提示词的大模型安全检测方法

站点导航

APP 下载