摘要
本发明公开了一种生成式大模型训练数据泄露风险评估方法及系统。方法包括如下:选取目标文本数据集;将目标文本数据集中的第i个目标文本拆分为前缀文本和后缀文本;将第i个目标文本的前缀文本发送到目标大语言模型,并生成候选文本;收集n个候选文本;将n个候选文本进行裁剪;计算n个裁剪文本彼此间的表层相似性,计算n个裁剪文本各自的zlib压缩熵;获取所有文本对应的评估结果进行比较,如果评估结果大于阈值,则认为目标文本被用于训练目标大语言模型,反之,则认为目标文本未被用于训练目标大语言模型。该方法仅依赖目标文本和模型输出,不仅显著提高了方法的实用性,而且对个人隐私信息和受版权保护的数据提供了有效的识别管理。
技术关键词
文本
大语言模型
风险评估方法
风险评估系统
数据
冗余度
裁剪单元
个人隐私信息
识别管理
系统为您推荐了相关专利信息
压力反馈控制方法
压力传感模块
压迫止血装置
记忆合金骨架
控制主机
肠道微生态标志物
16SrRNA基因
诊断系统
肠道微生物标志物
随机森林模型
数据存储
电源单元
处理单元
存储模块
电能表数据
分布式深度强化学习
共存方法
多天线基站
强化学习算法
贪婪策略