摘要
本发明提供一种基于生成式协同学习的无监督黑盒成员推理攻击方法及系统,引入生成器、判别器和协同框架。将样本输入多项启发式任务,计算各启发式任务的任务分数;利用生成器聚合所有任务分数,生成样本的伪标签,并基于动态阈值过滤噪声样本;计算样本输入提示和大语言模型输出响应间的偏移向量,以表示大语言模型内部状态;将偏移向量作为判别器输入,借助生成器生成的伪标签,对判别器进行训练,使得判别器能够根据偏移向量预测样本的成员概率。将判别器生成的成员概率作为样本的新的伪标签,帮助生成器进行训练优化。迭代交叉监督训练,直至判别器收敛。基于本发明方法训练得到的判别器能够在完全黑盒和无监督条件下实现高性能的成员推理。
技术关键词
置信度阈值
累积分布函数
标签
大语言模型
编码器
噪声样本
训练集
动态
高性能
定义
框架
系统为您推荐了相关专利信息
图像无损压缩方法
预测滤波器
算术编码器
编码模块
卷积神经网络结构
图文检索方法
文本
图像特征提取
特征提取器
融合全局
加解密模块
大语言模型
加密数据
推理系统
云端服务器