摘要
本发明提供了一种目标语言模型安全评测方法及电子设备,可以应用于网络空间安全技术领域。该方法包括:基于安全等级分类标准,对多个安全领域进行安全等级分类,得到分类结果;针对多个安全等级的每个安全等级,对至少一个安全领域进行测试题库构建,得到测试题库;根据攻击测试题库中至少一个测试题和拒答测试题库中至少一个测试题对目标语言模型进行模型应用安全测试,得到模型应用安全测试结果;基于风险能力测试用例对目标语言模型进行模型功能安全测试,得到模型功能安全测试结果,其中,风险能力测试用例用于测试目标语言模型的功能安全风险;根据模型应用安全测试结果和模型功能安全测试结果,生成目标语言模型的安全评估报告。
技术关键词
测试题
数据安全
评测方法
风险
漏洞
电子设备
报告
模型更新
合规性
参数
策略
处理器
病毒
存储器
接口
关系