大语言模型安全评估方法、装置及电子设备

正文

推荐专利

大语言模型安全评估方法、装置及电子设备

申请号：CN202511302693

申请日期：2025-09-12

公开号：CN120805149A

公开日期：2025-10-17

类型：发明专利

摘要

本申请实施例适用于人工智能模型技术领域，提供了一种大语言模型安全评估方法、装置及电子设备，该方法包括：获取由预设安全评估模型针对多个评测样本进行评估得到的安全评估信息，以及与安全评估信息对应的不确定性值；评测样本包括输入信息以及由待评测大模型针对各个输入信息生成的输出信息；依据抽样样本集确定动态阈值；针对不确定性值大于动态阈值的评测样本，确定针对评测样本的专家标签为评测样本的安全评估信息；依据各个评测样本及对应的安全评估信息，生成待评测大模型的安全评估结果。本申请实施例可以实现高效完成对待评测大模型进行安全评估，并确保对待评测大模型的安全评估结果准确性、可靠性。

技术关键词

样本大语言模型误差系数高风险生成输出信息动态标签置信度阈值错误率计算误差电子设备人工智能模型计算机程序产品评估装置处理器模块存储器总量

系统为您推荐了相关专利信息

一种农村电网典型场景生成方法、装置、设备及介质

典型场景生成方法初始聚类中心场景生成装置序列农村

一种手术导航中手术器械的3D轨迹生成方法

轨迹生成方法手术器械深度预测模型解码器编码器

一种甚高频通信台站的通信覆盖范围确定方法和系统

通信台站测试点电场通信覆盖范围岸基基站

一种基于GA-BP神经网络算法的LNG防翻滚预测方法和装置

LNG储罐 BP神经网络算法 Fluent软件分层密度

模型训练及网络流量检测方法、装置、电子设备、存储介质及计算机程序产品

网络流量数据序列数据分布网络流量检测方法样本

大语言模型安全评估方法、装置及电子设备

站点导航

APP 下载