一种新型中文语义混淆越狱攻击方法、装置、介质及设备

正文

推荐专利

申请号：CN202510146019

申请日期：2025-02-10

公开号：CN120012052A

公开日期：2025-05-16

类型：发明专利

摘要

一种新型中文语义混淆越狱攻击方法、装置、介质及设备，方法包括：获取原始有害提示；识别敏感有害关键词；选择与敏感有害关键词概率距离最大的同音异形词作为替代词；构造师生场景，目标模型作为学生回答原始有害提示；在师生场景中融合前缀注入和拒绝抑制；在师生场景中添加单样本；将原始有害提示和单样本中所有的敏感关键词替换为对应的同音异形词；将融合前缀注入和拒绝抑制的师生场景、替换完成的原始有害提示、替换完成的单样本作为目标模型的输入。实现针对国产大模型的自动化黑盒越狱攻击，能够有效地评估和测试中文语境下LLMs对于中文语义混淆越狱的抵抗能力，助于研究和开发更精准的防御措施。

技术关键词

敏感关键词可执行程序代码场景计算机存储介质样本语义存储器处理器学生风险输入模块识别模块电子设备指令数据措施算法

系统为您推荐了相关专利信息

吸盘单元及巡检机器人

管状壳体巡检机器人拉杆负压腔体攀爬机器人技术

一种入侵检测模型构建方法、装置、设备及存储介质

入侵检测模型服务端终端节点计算机存储介质

一种数据安全事件实时监测方法及系统

实时监测方法海量数据关联分析互联网攻击检测异常事件监督算法

一种基于盾构机掘进参数机器学习的隧道地层识别方法

盾构机掘进参数统计学特征识别方法 K近邻算法隧道

一种智能车辆嵌入式代码自动生成方法及装置

嵌入式代码智能车辆控制系统 Modelica语言抽象语法树序列

一种新型中文语义混淆越狱攻击方法、装置、介质及设备

站点导航

APP 下载