基于训练场景的大模型安全风险评价方法及装置

AITNT
正文
推荐专利
基于训练场景的大模型安全风险评价方法及装置
申请号:CN202410812125
申请日期:2024-06-21
公开号:CN119312334B
公开日期:2025-10-10
类型:发明专利
摘要
本申请涉及人工智能技术领域,特别涉及一种基于训练场景的大模型安全风险评价方法及装置,其中,方法包括:基于目标大模型的训练场景信息进行微调训练,得到微调模型;基于攻击指令对目标大模型进行攻击,得到被攻击模型和中毒样本;基于防御指令和中毒样本对被攻击模型进行防御处理,并根据攻击指令攻击防御处理后的被攻击模型,得到中毒模型;基于目标评价指标,利用微调模型和中毒模型生成安全风险分数,根据安全风险分数评价目标大模型的安全风险等级。本申请实施例可以通过对大模型进行攻击和防御训练,得到大模型的安全风险分数,以直观衡量模型的安全风险,从而进一步实现对大模型安全防御水平的优化改进,使模型更加稳定可靠。
技术关键词
训练场景 风险评价方法 指标 指令 样本 人工智能技术 训练集 计算机程序产品 评价装置 处理器 模块 可读存储介质 存储器 电子设备 接口
系统为您推荐了相关专利信息
1
一种基于强化学习的超图卷积会话推荐方法
会话推荐方法 项目 生成会话 编码模块 网络
2
一种基于深度强化学习的软件开发效率管理系统
软件开发效率 网络单元 深度强化学习模型 管理系统 数据采集模块
3
二噁英生成浓度检测方法、计算机设备、介质及程序产品
浓度检测方法 二噁英 多模态 样本 回归决策树
4
一种风电低频输电线路故障判别方法和系统
故障分类模型 故障定位模型 故障特征 支持向量机训练 粒子群算法优化
5
一种基于人工神经网络的逆变型电源构网型控制方法
人工神经网络 深度前馈神经网络 序列 电气 电源
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号