大模型安全的监控方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510350996

申请日期：2025-03-24

公开号：CN120296742A

公开日期：2025-07-11

类型：发明专利

摘要

本申请提出一种大模型安全的监控方法、装置、电子设备及存储介质。该方法包括：将未被污染的第一样本输入至训练好的大模型中，并确定第一样本在大模型的每层特征空间中的特征分布；获取实时输入至大模型的第二样本，确定第二样本在每层特征空间中的特征表示，并确定特征表示与特征分布之间的马氏距离；基于马氏距离，确定大模型的全局异常评分，并基于全局异常评分，识别第二样本中是否存在污染样本，以对大模型的安全进行监控。由此，本方案能够实时检测并防御潜在的攻击行为，为大模型的安全性和可靠性提供了有力保障。

技术关键词

样本计算机执行指令高斯分布模型监控方法训练集协方差矩阵电子设备可读存储介质置信度阈值计算机程序产品处理器通信存储器监控装置识别模块

大模型安全的监控方法、装置、电子设备及存储介质

站点导航

APP 下载