摘要
本发明公开了一种用于大语言模型安全防御的自动红队演练方法,包括如下步骤:S1,从数据库中采样种子提示词,红队模型根据种子提示词和指令生成对抗性提示词;S2,目标模型接收红队模型生成的对抗性提示词,并生成相应的响应;S3,奖励模型评估目标模型对于对抗性提示词的响应是否恰当,并根据评估结果对红队模型和目标模型进行更新微调;S4,通过自动或手动调整策略、或增加种子提示词与响应对来提高红队模型和目标模型的更新微调效果;其中,目标模型为需要提高安全性能的大语言模型。方法能生成更加新颖、多样且高质量的对抗性提示词,并能着重提升模型安全性能的薄弱部分。
技术关键词
演练方法
对抗性
大语言模型
种子
指令
策略
比率
风险
数据
系统为您推荐了相关专利信息
语音识别方法
语音控制指令
命令
计算机程序产品
数据更新