摘要
本发明公开了一种面向生成式大语言模型拆分学习的数据重构攻击防御方法,方法包括:获取待进行数据重构攻击防御的大语言模型拆分学习系统和训练数据集;该系统包括部署于客户端的底部模型和顶部模型,以及部署于服务端的主干模型;构建敏感特征解耦模块并在前向传播阶段基于训练数据集对其进行更新,敏感特征解耦模块接收底部模型输出的中间表征,输出安全激活值至主干模型;在反向传播阶段,基于顶部模型的输出并利用交叉熵损失对顶部模型进行优化更新,以及采用协方差矩阵自适应进化策略对底部模型执行无梯度优化,获得训练好的大语言模型拆分学习系统。本发明降低了当前大语言模型拆分学习系统潜在遭受的数据重构攻击威胁。
技术关键词
攻击防御方法
大语言模型
学习系统
重构
进化策略
数据
多层感知机
连续型
协方差矩阵
非线性
客户端
模块
自动编码器
拆分方法
服务端
参数
阶段
标签
系统为您推荐了相关专利信息
数据采集层
数据采集策略
数据存储模块
大数据处理框架
日志
冠状动脉血管造影
手术
CT扫描系统
报告
大语言模型
教育游戏
智能生成方法
图像生成模型
大语言模型
多模态