一种基于隐层激活分布建模的模型行为评测方法及系统

AITNT
正文
推荐专利
一种基于隐层激活分布建模的模型行为评测方法及系统
申请号:CN202510208888
申请日期:2025-02-24
公开号:CN120123772A
公开日期:2025-06-10
类型:发明专利
摘要
本发明公开了一种基于隐层激活分布建模的模型行为评测方法及系统,涉及大语言模型的安全性评测技术领域,将正样本与负样本分别输入大语言模型,获取对应的隐藏层参数及损失函数下的梯度;将隐藏层参数和梯度转化为矩阵形式,再对矩阵进行切片;计算负样本输入产生梯度切片的整体平均值作为参考,然后计算每一个正样本与负样本输入下产生的梯度切片与参考之间的余弦相似度,做差计算差值,将差值超过指定阈值的切片作为安全关键参数位置;将安全领域数据集输入大语言模型,结合安全关键参数位置,获取安全关键参数建立分类器模型,通过分类器模型进行大语言模型评测。本发明能够精确检测大语言模型中的不安全输入,评估模型的安全性。
技术关键词
大语言模型 分类器模型 评测方法 生成训练数据 切片 样本 参数 逻辑回归分类器 矩阵 评测技术 评测系统 算术平均值 模块
系统为您推荐了相关专利信息
1
一种基于深度学习的跨数据集磁共振多模态超分辨图像的合成方法
感知损失函数 退化模型 深度神经网络 磁共振图像数据 切片
2
一种机器人手语交流方法及相关装置、存储介质
手势识别模型 手语交流方法 文本 图像 序列
3
融合大语言模型与结构化模型的工艺参数优化诊断方法
大语言模型 子模块 诊断方法 自然语言 诊断模块
4
一种基于大语言模型的Python程序测试用例生成方法
生成测试用例 大语言模型 单元测试用例 覆盖率 生成方法
5
一种中医智能问答方法、系统、设备及介质
智能问答方法 三元组 智能问答系统 实体 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号