摘要
本申请提出一种大模型安全的监控方法、装置、电子设备及存储介质。该方法包括:将未被污染的第一样本输入至训练好的大模型中,并确定第一样本在大模型的每层特征空间中的特征分布;获取实时输入至大模型的第二样本,确定第二样本在每层特征空间中的特征表示,并确定特征表示与特征分布之间的马氏距离;基于马氏距离,确定大模型的全局异常评分,并基于全局异常评分,识别第二样本中是否存在污染样本,以对大模型的安全进行监控。由此,本方案能够实时检测并防御潜在的攻击行为,为大模型的安全性和可靠性提供了有力保障。
技术关键词
样本
计算机执行指令
高斯分布模型
监控方法
训练集
协方差矩阵
电子设备
可读存储介质
置信度阈值
计算机程序产品
处理器通信
存储器
监控装置
识别模块