一种生成式大模型训练数据泄露风险评估方法及系统

正文

推荐专利

申请号：CN202510523269

申请日期：2025-04-24

公开号：CN120597309A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开了一种生成式大模型训练数据泄露风险评估方法及系统。方法包括如下：选取目标文本数据集；将目标文本数据集中的第i个目标文本拆分为前缀文本和后缀文本；将第i个目标文本的前缀文本发送到目标大语言模型，并生成候选文本；收集n个候选文本；将n个候选文本进行裁剪；计算n个裁剪文本彼此间的表层相似性，计算n个裁剪文本各自的zlib压缩熵；获取所有文本对应的评估结果进行比较，如果评估结果大于阈值，则认为目标文本被用于训练目标大语言模型，反之，则认为目标文本未被用于训练目标大语言模型。该方法仅依赖目标文本和模型输出，不仅显著提高了方法的实用性，而且对个人隐私信息和受版权保护的数据提供了有效的识别管理。

技术关键词

文本大语言模型风险评估方法风险评估系统数据冗余度裁剪单元个人隐私信息识别管理

系统为您推荐了相关专利信息

介入手术穿刺点智能压迫止血装置及其压力反馈控制方法

压力反馈控制方法压力传感模块压迫止血装置记忆合金骨架控制主机

一种急性胰腺炎肠道微生态标志物及其应用

肠道微生态标志物 16SrRNA基因诊断系统肠道微生物标志物随机森林模型

非接触式停复电检测系统

数据存储电源单元处理单元存储模块电能表数据

一种测井小层合试的天然气产能智能预测方法及装置

日产水量机器学习模型产能测井曲线数据单层

一种未授权毫米波段中NR-U网络与WiGig网络的共存方法

分布式深度强化学习共存方法多天线基站强化学习算法贪婪策略

一种生成式大模型训练数据泄露风险评估方法及系统

站点导航

APP 下载