摘要
本发明涉及一种用于大语言模型的提示注入攻击测试用例获得方法,结合条件变分自编码器cVAE和马尔可夫链,通过数据生成和上下文建模,逐步暴露恶意指令,模拟现实中的多轮对话攻击,获得大语言模型测试用例,对大语言模型实现多轮对话攻击,挑战大语言模型的防御能力;并且所设计方案引入隐蔽性技术、角色扮演攻击、状态转移等技术,提升了攻击的复杂度和隐蔽性,具备自动化、隐蔽性更强、覆盖广、可批量测试等核心优势,能够更真实、更全面地评估大语言模型的安全防御能力,并发现现有防御机制的不足之处,推动对多轮提示注入攻击的研究和安全防御机制的改进。
技术关键词
大语言模型
恶意样本
指令
编码器
多轮对话
信号编码
标签
解码器
网络
变量
自然语言
同义词
强度
版权
复杂度
意图
嵌套
批量
核心