一种用于大语言模型的提示注入攻击测试用例获得方法

AITNT
正文
推荐专利
一种用于大语言模型的提示注入攻击测试用例获得方法
申请号:CN202510970344
申请日期:2025-07-15
公开号:CN120470583B
公开日期:2025-09-16
类型:发明专利
摘要
本发明涉及一种用于大语言模型的提示注入攻击测试用例获得方法,结合条件变分自编码器cVAE和马尔可夫链,通过数据生成和上下文建模,逐步暴露恶意指令,模拟现实中的多轮对话攻击,获得大语言模型测试用例,对大语言模型实现多轮对话攻击,挑战大语言模型的防御能力;并且所设计方案引入隐蔽性技术、角色扮演攻击、状态转移等技术,提升了攻击的复杂度和隐蔽性,具备自动化、隐蔽性更强、覆盖广、可批量测试等核心优势,能够更真实、更全面地评估大语言模型的安全防御能力,并发现现有防御机制的不足之处,推动对多轮提示注入攻击的研究和安全防御机制的改进。
技术关键词
大语言模型 恶意样本 指令 编码器 多轮对话 信号编码 标签 解码器 网络 变量 自然语言 同义词 强度 版权 复杂度 意图 嵌套 批量 核心
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号