一种用于大语言模型的提示注入攻击测试用例获得方法

正文

推荐专利

申请号：CN202510970344

申请日期：2025-07-15

公开号：CN120470583B

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及一种用于大语言模型的提示注入攻击测试用例获得方法，结合条件变分自编码器cVAE和马尔可夫链，通过数据生成和上下文建模，逐步暴露恶意指令，模拟现实中的多轮对话攻击，获得大语言模型测试用例，对大语言模型实现多轮对话攻击，挑战大语言模型的防御能力；并且所设计方案引入隐蔽性技术、角色扮演攻击、状态转移等技术，提升了攻击的复杂度和隐蔽性，具备自动化、隐蔽性更强、覆盖广、可批量测试等核心优势，能够更真实、更全面地评估大语言模型的安全防御能力，并发现现有防御机制的不足之处，推动对多轮提示注入攻击的研究和安全防御机制的改进。

技术关键词

大语言模型恶意样本指令编码器多轮对话信号编码标签解码器网络变量自然语言同义词强度版权复杂度意图嵌套批量核心

一种用于大语言模型的提示注入攻击测试用例获得方法

站点导航

APP 下载