摘要
本申请涉及生成式大模型技术领域,公开一种用于中文大模型的越狱攻击方法,包括:对待输入的攻击问题进行数据增强;将增强后的攻击问题与经过选择的攻击模板进行拼接;将拼接后的数据作为测试模型的输入,对测试模型进行攻击,获得测试模型的输出;其中,测试模型为中文大模型;根据构建的安全评估模型,判定测试模型的输出是否安全,以统计攻击成功率。该方法能够适配中文的攻击场景,提升了中文诱导的能力。还通过统计攻击成功率能够量化攻击的有效性。本申请还公开一种用于中文大模型的越狱攻击装置及电子设备。
技术关键词
电子设备本体
模板
生成攻击样本
语义向量
数据
答案
模块
处理器
有效性
定义
程序
指令
格式
存储器
指标
场景
组织