一种基于多智能体强化学习的大模型安全漏洞检测方法

正文

推荐专利

申请号：CN202511274702

申请日期：2025-09-08

公开号：CN120805146B

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种基于多智能体强化学习的大模型安全漏洞检测方法，涉及人工智能安全技术领域。该检测方法包括：构建初始提示词集合、提示词生成智能体和提示词判别智能体；选择初始提示词输入提示词生成智能体，生成的新提示词输入目标大模型，得到第一模型输出；将新提示词和第一模型输出组成键值对输入提示词判别智能体，获取新提示词的综合得分，并将新提示词添加至初始提示词集合；重复更新初始提示词集合，获取优化提示词集合输入目标大模型，获取第二模型输出；对第二模型输出进行敏感信息识别，判断目标大模型的安全漏洞。该检测方法可有效发现大模型潜在的安全风险漏洞，有助于提升目标大模型的安全性。

技术关键词

安全漏洞检测方法多智能体强化学习生成智能敏感信息识别关键词策略更新文本生成模型模板语义分词对抗性分析模块高风险大语言模型语法结构机制样本键值

系统为您推荐了相关专利信息

一种虚拟电厂资源协调优化控制方法、系统、设备及介质

协调优化控制方法协调优化控制策略储能设施多智能体强化学习发电量

目标数据的识别方法及装置

半监督聚类训练识别模型噪声数据分词识别方法

一种自适应门控残差连接的相关性虚假新闻检测方法

循环卷积神经网络嵌入特征文档特征注意力关键词

一种用于档案审核开放的敏感信息识别方法及系统

敏感信息识别方法计算机可执行指令多层次识别模块智能算法识别

事件信息处理方法、装置、电子设备及非易失性存储介质

事件信息处理方法非易失性存储介质自然语言关键词语义结构

一种基于多智能体强化学习的大模型安全漏洞检测方法

站点导航

APP 下载