摘要
本发明提供了一种基于大语言模型面向分类的差分隐私材料数据共享方法,涉及数据共享与隐私保护技术领域,该方法包括:按照数据类别标签对材料数据进行数据集划分;利用预训练的大语言模型,按照材料数据中类别型属性的相关性对类别型属性进行分组,以细粒度保持属性之间的关联信息;采用聚类算法将材料数据子集内的记录按数值型属性的相似性分成多个簇;基于差分隐私机制共享材料数据。本发明克服了现有通用差分隐私材料数据共享方案在分类模型训练应用中存在不足的问题。
技术关键词
数据共享方法
大语言模型
数值
差分隐私机制
拉普拉斯噪声
隐私保护技术
标签
聚类算法
分类模型训练
表达式
指数
索引
定义