摘要
本申请涉及人工智能技术领域,特别涉及一种基于训练场景的大模型安全风险评价方法及装置,其中,方法包括:基于目标大模型的训练场景信息进行微调训练,得到微调模型;基于攻击指令对目标大模型进行攻击,得到被攻击模型和中毒样本;基于防御指令和中毒样本对被攻击模型进行防御处理,并根据攻击指令攻击防御处理后的被攻击模型,得到中毒模型;基于目标评价指标,利用微调模型和中毒模型生成安全风险分数,根据安全风险分数评价目标大模型的安全风险等级。本申请实施例可以通过对大模型进行攻击和防御训练,得到大模型的安全风险分数,以直观衡量模型的安全风险,从而进一步实现对大模型安全防御水平的优化改进,使模型更加稳定可靠。
技术关键词
训练场景
风险评价方法
指标
指令
样本
人工智能技术
训练集
计算机程序产品
评价装置
处理器
模块
可读存储介质
存储器
电子设备
接口
系统为您推荐了相关专利信息
软件开发效率
网络单元
深度强化学习模型
管理系统
数据采集模块
故障分类模型
故障定位模型
故障特征
支持向量机训练
粒子群算法优化