摘要
本发明公开了基于正向语境嵌入越狱攻击提示词的大模型安全检测方法,包括:获取原始越狱攻击提示词;对原始越狱攻击提示词进行分类,并基于类别对原始越狱攻击提示词进行改写,得到改写提示词;选取正向回答内容和恶意回答内容,将改写提示词进行结构引导的语义混合调控,经强化学习修正,得到正向语境嵌入的越狱攻击提示词;将正向语境嵌入的越狱攻击提示词输入待测大模型,针对待测大模型进行安全检测。该方法将原始具有攻击性或违规目的的提示词,通过语义重构与语境包装的方式,嵌入到一段具有正面导向意义的文本上下文中,从而显著降低被模型后置安全护栏(如敏感词检测器、内容过滤器)识别拦截的概率,提升大模型安全检测的准确性。
技术关键词
混合式结构
语义
生成结构
模板
场景
处理器
计算机程序产品
指令
监测模块
护栏
标志
可读存储介质
检测器
电子设备
过滤器
重构
文本
系统为您推荐了相关专利信息
自然语言文本
生成自然语言
元素
信令
文本处理方法
虚拟体验系统
数字交互
视频显示模块
灯光模块
智能配电模块
查询优化方法
智能人机交互
交通
设备控制
多模态特征