摘要
本说明书实施例公开了一种大模型的安全性测评方法、装置及设备,该方法包括:获取用于对目标大模型进行安全性测评所需使用的测试集,测试集中包括测试样本数据和对应的标签信息;确定测试样本数据中后门触发器的停用词权重比例阈值,基于停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整,得到多个目标停用词组;将测试样本数据中包含的当前处于第一目标停用词组的停用词,使用多个目标停用词组中的其它目标停用词组中与停用词相匹配的基准停用词替换,直到停用词权重比例满足预设条件,得到替换后的测试集;基于替换后的测试集对目标大模型进行安全性测评,以判断目标大模型是否存在越狱攻击风险。
技术关键词
样本
安全性测评方法
数据
自然语言
标签
基准
后门
安全性测评装置
测评设备
存储计算机可执行指令
掩模
风险
语句
语义
频率
模块
处理器
词语
存储器
人类
系统为您推荐了相关专利信息
研磨监测方法
光学传感器
氧化镁
压力控制系统
画面
信息展示方法
语句
字段
信息展示装置
语义特征提取
障碍物
深度卷积网络
检测定位方法
轨道
卷积神经网络提取
数据处理单元
烟草制品
自动化控制模块
监测系统
人机交互界面