一种利用隐藏状态过滤的防隐私攻击方法及装置

正文

推荐专利

申请号：CN202411512708

申请日期：2024-10-28

公开号：CN119377773A

公开日期：2025-01-28

类型：发明专利

摘要

本说明书实施例公开了一种利用隐藏状态过滤的防隐私攻击方法及装置，包括：获取待处理请求；基于所述待处理请求，获取大语言模型的最终解码器的k个标记的向量tk的级联向量Tk；将所述级联向量Tk输入至预训练的轻量级分类器中，获得危害性得分，所述预训练的轻量级分类器为多层感知机，所述多层感知机包括：输入层、隐藏层和输出层，所述隐藏层包括：第一隐藏层、第二隐藏层和第三隐藏层；若所述危害性得分大于等于预设阈值，则所述大语言模型拒绝对所述待处理请求生成响应，若所述危害性得分小于所述预设阈值，则所述大语言模型响应所述待处理请求。

技术关键词

大语言模型危害性多层感知机分类器级联解码器 sigmoid函数标记逻辑回归模型表达式矩阵模块标签数值参数

系统为您推荐了相关专利信息

一种基于有限元模型的船舶建模校对设计方法及系统

板材 T型材训练集机器学习分类生成预测模型

基于迁移学习的多孔传输层输运参数预测及评价方法

评价方法多层感知机机器学习预测方法可逆燃料电池数值仿真

一种基于两阶段自适应架构的加密流量分类方法

加密流量分类方法两阶段分类策略平滑度特征协方差矩阵

一种基于人工智能的胃癌辅助诊断方法

胃癌辅助诊断生成对抗网络模型拉普拉斯金字塔数字孪生模型人工智能模型

一种面向人机对话系统的命名实体识别方法

人机对话系统大语言模型命名实体识别方法令牌矩阵

一种利用隐藏状态过滤的防隐私攻击方法及装置

站点导航

APP 下载