摘要
本发明提供一种面向大模型知识库的数据隐私保护方法及系统,涉及人工智能技术领域,所述方法包括:获取各参与方的原始隐私数据,对原始隐私数据进行清洗和特征提取,识别敏感信息字段;利用生成对抗网络对包含敏感信息的字段进行脱敏处理,得到脱敏后的数据;对脱敏后的数据执行k‑匿名化处理,基于准标识符将数据划分为多个等价类,并对记录数量少于k的类进行泛化处理,得到匿名化数据集。本发明解决大模型训练中多参与方数据协同的隐私泄露问题。
技术关键词
数据隐私保护方法
模型更新
识别敏感信息
生成对抗网络
拉普拉斯噪声
同态加密技术
差分隐私机制
加密数据
标识符
服务器
数据隐私保护系统
字段
动态
噪声参数
生成受保护
随机噪声