大语言模型漏洞检测方法、装置及大语言模型检测设备

正文

推荐专利

申请号：CN202410716700

申请日期：2024-06-04

公开号：CN118551388A

公开日期：2024-08-27

类型：发明专利

摘要

本发明提供了一种大语言模型漏洞检测方法、装置及大语言模型检测设备，涉及人工智能安全检测技术领域，其方法包括；构建初始对抗语句，输入大语言模型得到响应语句；确定响应语句的目标回复损失，对初始对抗语句进行聚类改进遗传算法优化得到包括代表对抗语句和若干优化对抗语句的优化对抗语句簇；将代表对抗语句输入大语言模型得到新一轮响应语句，确定新一轮响应语句的目标回复损失，迭代生成优化对抗语句簇直到目标回复损失满足预设阈值或大语言模型输出目标回复。本发明通过聚类改进遗传算法进行对抗语句优化过程中，以每个优化对抗语句簇的代表对抗语句来对大语言模型进行攻击测试，大幅减少攻击轮次，提高对大语言模型的攻击效率。

技术关键词

语句漏洞检测方法大语言模型遗传算法优化编码向量代表分词检测设备漏洞检测装置聚类处理器度量可读存储介质存储器计算机模板风险指令

系统为您推荐了相关专利信息

基于大模型微调的语音指令响应方法、装置、设备及介质

指令大语言模型语音识别模型文本语音采集模块

大语言模型评估集自动生成方法、装置、设备和介质

自动生成方法大语言模型关键词答案生成装置

基于环境感知的光伏板自适应清洗路径规划方法及系统

能源消耗信息状态监测数据模拟退火算法脏污多机器人协同控制

监测生成式模型质量

专家系统大语言模型专业比率标记

录音管理系统的控制方法、设备及存储介质

管理系统音频特征语音文本标记

大语言模型漏洞检测方法、装置及大语言模型检测设备

站点导航

APP 下载