一种生成式大模型训练数据泄露风险评估方法及系统

AITNT
正文
推荐专利
一种生成式大模型训练数据泄露风险评估方法及系统
申请号:CN202510523269
申请日期:2025-04-24
公开号:CN120597309A
公开日期:2025-09-05
类型:发明专利
摘要
本发明公开了一种生成式大模型训练数据泄露风险评估方法及系统。方法包括如下:选取目标文本数据集;将目标文本数据集中的第i个目标文本拆分为前缀文本和后缀文本;将第i个目标文本的前缀文本发送到目标大语言模型,并生成候选文本;收集n个候选文本;将n个候选文本进行裁剪;计算n个裁剪文本彼此间的表层相似性,计算n个裁剪文本各自的zlib压缩熵;获取所有文本对应的评估结果进行比较,如果评估结果大于阈值,则认为目标文本被用于训练目标大语言模型,反之,则认为目标文本未被用于训练目标大语言模型。该方法仅依赖目标文本和模型输出,不仅显著提高了方法的实用性,而且对个人隐私信息和受版权保护的数据提供了有效的识别管理。
技术关键词
文本 大语言模型 风险评估方法 风险评估系统 数据 冗余度 裁剪单元 个人隐私信息 识别管理
系统为您推荐了相关专利信息
1
介入手术穿刺点智能压迫止血装置及其压力反馈控制方法
压力反馈控制方法 压力传感模块 压迫止血装置 记忆合金骨架 控制主机
2
一种急性胰腺炎肠道微生态标志物及其应用
肠道微生态标志物 16SrRNA基因 诊断系统 肠道微生物标志物 随机森林模型
3
非接触式停复电检测系统
数据存储 电源单元 处理单元 存储模块 电能表数据
4
一种测井小层合试的天然气产能智能预测方法及装置
日产水量 机器学习模型 产能 测井曲线数据 单层
5
一种未授权毫米波段中NR-U网络与WiGig网络的共存方法
分布式深度强化学习 共存方法 多天线基站 强化学习算法 贪婪策略
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号