一种大模型的安全性测评方法、装置及设备

正文

推荐专利

一种大模型的安全性测评方法、装置及设备

申请号：CN202411515145

申请日期：2024-10-28

公开号：CN119025879B

公开日期：2025-02-28

类型：发明专利

摘要

本说明书实施例公开了一种大模型的安全性测评方法、装置及设备，该方法包括：获取用于对目标大模型进行安全性测评所需使用的测试集，测试集中包括测试样本数据和对应的标签信息；确定测试样本数据中后门触发器的停用词权重比例阈值，基于停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组；将测试样本数据中包含的当前处于第一目标停用词组的停用词，使用多个目标停用词组中的其它目标停用词组中与停用词相匹配的基准停用词替换，直到停用词权重比例满足预设条件，得到替换后的测试集；基于替换后的测试集对目标大模型进行安全性测评，以判断目标大模型是否存在越狱攻击风险。

技术关键词

样本安全性测评方法数据自然语言标签基准后门安全性测评装置测评设备存储计算机可执行指令掩模风险语句语义频率模块处理器词语存储器人类

系统为您推荐了相关专利信息

一种氧化镁的研磨监测方法及系统

研磨监测方法光学传感器氧化镁压力控制系统画面

基于大模型的信息展示方法、装置、设备、介质和产品

信息展示方法语句字段信息展示装置语义特征提取

铁路无人驾驶障碍物检测定位方法、装置、设备及介质

障碍物深度卷积网络检测定位方法轨道卷积神经网络提取

智能化烟草制品质量监测系统及其应用方法

数据处理单元烟草制品自动化控制模块监测系统人机交互界面

基于深度学习的内分泌护理教学决策系统

教学动作决策系统内分泌特征提取模块风险

一种大模型的安全性测评方法、装置及设备

站点导航

APP 下载