一种用于大语言模型安全防御的自动红队演练方法

正文

推荐专利

申请号：CN202410973625

申请日期：2024-07-19

公开号：CN119089974A

公开日期：2024-12-06

类型：发明专利

摘要

本发明公开了一种用于大语言模型安全防御的自动红队演练方法，包括如下步骤：S1，从数据库中采样种子提示词，红队模型根据种子提示词和指令生成对抗性提示词；S2，目标模型接收红队模型生成的对抗性提示词，并生成相应的响应；S3，奖励模型评估目标模型对于对抗性提示词的响应是否恰当，并根据评估结果对红队模型和目标模型进行更新微调；S4，通过自动或手动调整策略、或增加种子提示词与响应对来提高红队模型和目标模型的更新微调效果；其中，目标模型为需要提高安全性能的大语言模型。方法能生成更加新颖、多样且高质量的对抗性提示词，并能着重提升模型安全性能的薄弱部分。

技术关键词

演练方法对抗性大语言模型种子指令策略比率风险数据

系统为您推荐了相关专利信息

一种基于Raft选举的VLAN标签分配方法

标签分配方法节点策略报文交换机设备

一种基于情感大语言模型的学生早期表现预测方法

大语言模型学生融合特征情感特征多层感知机

语音识别方法、装置、可读存储介质和计算机程序产品

语音识别方法语音控制指令命令计算机程序产品数据更新

进程的限速方法、装置、芯片、设备、介质及程序产品

进程计算机执行指令硬盘电子设备限速方法

可重构计算阵列、重构控制器架构、芯片及重构计算方法

重构控制器资源控制器阵列状态机主控模块

一种用于大语言模型安全防御的自动红队演练方法

站点导航

APP 下载