摘要
一种新型中文语义混淆越狱攻击方法、装置、介质及设备,方法包括:获取原始有害提示;识别敏感有害关键词;选择与敏感有害关键词概率距离最大的同音异形词作为替代词;构造师生场景,目标模型作为学生回答原始有害提示;在师生场景中融合前缀注入和拒绝抑制;在师生场景中添加单样本;将原始有害提示和单样本中所有的敏感关键词替换为对应的同音异形词;将融合前缀注入和拒绝抑制的师生场景、替换完成的原始有害提示、替换完成的单样本作为目标模型的输入。实现针对国产大模型的自动化黑盒越狱攻击,能够有效地评估和测试中文语境下LLMs对于中文语义混淆越狱的抵抗能力,助于研究和开发更精准的防御措施。
技术关键词
敏感关键词
可执行程序代码
场景
计算机存储介质
样本
语义
存储器
处理器
学生
风险
输入模块
识别模块
电子设备
指令
数据
措施
算法
系统为您推荐了相关专利信息
管状壳体
巡检机器人
拉杆
负压腔体
攀爬机器人技术
实时监测方法
海量数据关联分析
互联网攻击检测
异常事件
监督算法
盾构机掘进参数
统计学特征
识别方法
K近邻算法
隧道
嵌入式代码
智能车辆控制系统
Modelica语言
抽象语法树
序列