一种新型中文语义混淆越狱攻击方法、装置、介质及设备

AITNT
正文
推荐专利
一种新型中文语义混淆越狱攻击方法、装置、介质及设备
申请号:CN202510146019
申请日期:2025-02-10
公开号:CN120012052A
公开日期:2025-05-16
类型:发明专利
摘要
一种新型中文语义混淆越狱攻击方法、装置、介质及设备,方法包括:获取原始有害提示;识别敏感有害关键词;选择与敏感有害关键词概率距离最大的同音异形词作为替代词;构造师生场景,目标模型作为学生回答原始有害提示;在师生场景中融合前缀注入和拒绝抑制;在师生场景中添加单样本;将原始有害提示和单样本中所有的敏感关键词替换为对应的同音异形词;将融合前缀注入和拒绝抑制的师生场景、替换完成的原始有害提示、替换完成的单样本作为目标模型的输入。实现针对国产大模型的自动化黑盒越狱攻击,能够有效地评估和测试中文语境下LLMs对于中文语义混淆越狱的抵抗能力,助于研究和开发更精准的防御措施。
技术关键词
敏感关键词 可执行程序代码 场景 计算机存储介质 样本 语义 存储器 处理器 学生 风险 输入模块 识别模块 电子设备 指令 数据 措施 算法
系统为您推荐了相关专利信息
1
吸盘单元及巡检机器人
管状壳体 巡检机器人 拉杆 负压腔体 攀爬机器人技术
2
一种入侵检测模型构建方法、装置、设备及存储介质
入侵检测模型 服务端 终端 节点 计算机存储介质
3
一种数据安全事件实时监测方法及系统
实时监测方法 海量数据关联分析 互联网攻击检测 异常事件 监督算法
4
一种基于盾构机掘进参数机器学习的隧道地层识别方法
盾构机掘进参数 统计学特征 识别方法 K近邻算法 隧道
5
一种智能车辆嵌入式代码自动生成方法及装置
嵌入式代码 智能车辆控制系统 Modelica语言 抽象语法树 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号