一种用于大语言模型安全防御的自动红队演练方法

AITNT
正文
推荐专利
一种用于大语言模型安全防御的自动红队演练方法
申请号:CN202410973625
申请日期:2024-07-19
公开号:CN119089974A
公开日期:2024-12-06
类型:发明专利
摘要
本发明公开了一种用于大语言模型安全防御的自动红队演练方法,包括如下步骤:S1,从数据库中采样种子提示词,红队模型根据种子提示词和指令生成对抗性提示词;S2,目标模型接收红队模型生成的对抗性提示词,并生成相应的响应;S3,奖励模型评估目标模型对于对抗性提示词的响应是否恰当,并根据评估结果对红队模型和目标模型进行更新微调;S4,通过自动或手动调整策略、或增加种子提示词与响应对来提高红队模型和目标模型的更新微调效果;其中,目标模型为需要提高安全性能的大语言模型。方法能生成更加新颖、多样且高质量的对抗性提示词,并能着重提升模型安全性能的薄弱部分。
技术关键词
演练方法 对抗性 大语言模型 种子 指令 策略 比率 风险 数据
系统为您推荐了相关专利信息
1
一种基于Raft选举的VLAN标签分配方法
标签分配方法 节点 策略 报文 交换机设备
2
一种基于情感大语言模型的学生早期表现预测方法
大语言模型 学生 融合特征 情感特征 多层感知机
3
语音识别方法、装置、可读存储介质和计算机程序产品
语音识别方法 语音控制指令 命令 计算机程序产品 数据更新
4
进程的限速方法、装置、芯片、设备、介质及程序产品
进程 计算机执行指令 硬盘 电子设备 限速方法
5
可重构计算阵列、重构控制器架构、芯片及重构计算方法
重构控制器 资源控制器 阵列 状态机 主控模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号