一种基于隐层激活分布建模的模型行为评测方法及系统

正文

推荐专利

申请号：CN202510208888

申请日期：2025-02-24

公开号：CN120123772A

公开日期：2025-06-10

类型：发明专利

摘要

本发明公开了一种基于隐层激活分布建模的模型行为评测方法及系统，涉及大语言模型的安全性评测技术领域，将正样本与负样本分别输入大语言模型，获取对应的隐藏层参数及损失函数下的梯度；将隐藏层参数和梯度转化为矩阵形式，再对矩阵进行切片；计算负样本输入产生梯度切片的整体平均值作为参考，然后计算每一个正样本与负样本输入下产生的梯度切片与参考之间的余弦相似度，做差计算差值，将差值超过指定阈值的切片作为安全关键参数位置；将安全领域数据集输入大语言模型，结合安全关键参数位置，获取安全关键参数建立分类器模型，通过分类器模型进行大语言模型评测。本发明能够精确检测大语言模型中的不安全输入，评估模型的安全性。

技术关键词

大语言模型分类器模型评测方法生成训练数据切片样本参数逻辑回归分类器矩阵评测技术评测系统算术平均值模块

系统为您推荐了相关专利信息

一种基于深度学习的跨数据集磁共振多模态超分辨图像的合成方法

感知损失函数退化模型深度神经网络磁共振图像数据切片

一种机器人手语交流方法及相关装置、存储介质

手势识别模型手语交流方法文本图像序列

融合大语言模型与结构化模型的工艺参数优化诊断方法

大语言模型子模块诊断方法自然语言诊断模块

一种基于大语言模型的Python程序测试用例生成方法

生成测试用例大语言模型单元测试用例覆盖率生成方法

一种中医智能问答方法、系统、设备及介质

智能问答方法三元组智能问答系统实体关系

一种基于隐层激活分布建模的模型行为评测方法及系统

站点导航

APP 下载