摘要
本发明公开了一种基于概念分解与重组的安全测试方法,包括以下步骤:从包含恶意信息的原始提示中提取出恶意意图,并将恶意意图转化为结构化文本和行为的语义表示;将结构化文本和行为分解为多个子概念;筛选子概念,将其重组为最优子集;基于最优子集生成越狱提示;将越狱提示输入目标模型对目标模型进行攻击,由目标模型输出攻击后文本。本发明公开的方法,基于生成的有害文本,从多维度对生成文本的危害性进行量化评估,有效地捕捉了不同攻击方法所带来的潜在风险,从而提供了更全面的危害性评估体系。
技术关键词
测试方法
概念
文本
意图
危害性
计算机
语义
处理器通信
指令
可读存储介质
存储器
电子设备
嵌套
模板
风险