摘要
本发明公开了一种基于隐层激活分布建模的模型行为评测方法及系统,涉及大语言模型的安全性评测技术领域,将正样本与负样本分别输入大语言模型,获取对应的隐藏层参数及损失函数下的梯度;将隐藏层参数和梯度转化为矩阵形式,再对矩阵进行切片;计算负样本输入产生梯度切片的整体平均值作为参考,然后计算每一个正样本与负样本输入下产生的梯度切片与参考之间的余弦相似度,做差计算差值,将差值超过指定阈值的切片作为安全关键参数位置;将安全领域数据集输入大语言模型,结合安全关键参数位置,获取安全关键参数建立分类器模型,通过分类器模型进行大语言模型评测。本发明能够精确检测大语言模型中的不安全输入,评估模型的安全性。
技术关键词
大语言模型
分类器模型
评测方法
生成训练数据
切片
样本
参数
逻辑回归分类器
矩阵
评测技术
评测系统
算术平均值
模块
系统为您推荐了相关专利信息
感知损失函数
退化模型
深度神经网络
磁共振图像数据
切片
生成测试用例
大语言模型
单元测试用例
覆盖率
生成方法