摘要
本说明书实施例公开了一种利用隐藏状态过滤的防隐私攻击方法及装置,包括:获取待处理请求;基于所述待处理请求,获取大语言模型的最终解码器的k个标记的向量tk的级联向量Tk;将所述级联向量Tk输入至预训练的轻量级分类器中,获得危害性得分,所述预训练的轻量级分类器为多层感知机,所述多层感知机包括:输入层、隐藏层和输出层,所述隐藏层包括:第一隐藏层、第二隐藏层和第三隐藏层;若所述危害性得分大于等于预设阈值,则所述大语言模型拒绝对所述待处理请求生成响应,若所述危害性得分小于所述预设阈值,则所述大语言模型响应所述待处理请求。
技术关键词
大语言模型
危害性
多层感知机
分类器
级联
解码器
sigmoid函数
标记
逻辑回归模型
表达式
矩阵
模块
标签
数值
参数
系统为您推荐了相关专利信息
评价方法
多层感知机
机器学习预测方法
可逆燃料电池
数值仿真
加密流量分类方法
两阶段
分类策略
平滑度
特征协方差矩阵
胃癌辅助诊断
生成对抗网络模型
拉普拉斯金字塔
数字孪生模型
人工智能模型
人机对话系统
大语言模型
命名实体识别方法
令牌
矩阵