基于训练场景的大模型安全风险评价方法及装置

正文

推荐专利

申请号：CN202410812125

申请日期：2024-06-21

公开号：CN119312334B

公开日期：2025-10-10

类型：发明专利

摘要

本申请涉及人工智能技术领域，特别涉及一种基于训练场景的大模型安全风险评价方法及装置，其中，方法包括：基于目标大模型的训练场景信息进行微调训练，得到微调模型；基于攻击指令对目标大模型进行攻击，得到被攻击模型和中毒样本；基于防御指令和中毒样本对被攻击模型进行防御处理，并根据攻击指令攻击防御处理后的被攻击模型，得到中毒模型；基于目标评价指标，利用微调模型和中毒模型生成安全风险分数，根据安全风险分数评价目标大模型的安全风险等级。本申请实施例可以通过对大模型进行攻击和防御训练，得到大模型的安全风险分数，以直观衡量模型的安全风险，从而进一步实现对大模型安全防御水平的优化改进，使模型更加稳定可靠。

技术关键词

训练场景风险评价方法指标指令样本人工智能技术训练集计算机程序产品评价装置处理器模块可读存储介质存储器电子设备接口

系统为您推荐了相关专利信息

一种基于强化学习的超图卷积会话推荐方法

会话推荐方法项目生成会话编码模块网络

一种基于深度强化学习的软件开发效率管理系统

软件开发效率网络单元深度强化学习模型管理系统数据采集模块

二噁英生成浓度检测方法、计算机设备、介质及程序产品

浓度检测方法二噁英多模态样本回归决策树

一种风电低频输电线路故障判别方法和系统

故障分类模型故障定位模型故障特征支持向量机训练粒子群算法优化

一种基于人工神经网络的逆变型电源构网型控制方法

人工神经网络深度前馈神经网络序列电气电源

基于训练场景的大模型安全风险评价方法及装置

站点导航

APP 下载