摘要
本发明公开了一种基于工作记忆树的大语言模型漏洞测试方法,所述方法包括以下步骤:步骤1:恶意语义文本采集;步骤2:自动对抗提示构建;步骤3:大语言模型漏洞测试;步骤4:测试结果评估;步骤5:对抗提示迭代优化。本发明能够精准构建具备隐蔽性和攻击多样性的对抗性提示,改善传统大语言模型漏洞测试方法在覆盖范围有限和多提示探索性不足的局限性。
技术关键词
漏洞测试方法
大语言模型
对抗性
令牌
注意力
指数衰减函数
自然语言理解
危害性
语义层面
文本
关键字
节点
爬虫技术
处理器
序列
多路径
存储器
多角度