摘要
本发明公开了一种面向分子预训练模型的数据窃取风险评估方法和系统,属于图结构数据处理领域。获取待评估的分子预训练模型及其对应的分子训练集;采用与分子训练集相同类型的辅助训练集训练一个可学习的分子评分函数;基于强化学习的分子生成模块产生潜在于分子训练集中的分子候选集;利用训练后的分子评分函数从分子候选集中筛选出最终分子集,根据最终分子集与分子训练集的相似度评估分子预训练模型的数据窃取风险,相似度越高,模型的数据窃取风险越大。本发明提出了一种分子预训练模型的训练数据提取方法并用于该模型的数据窃取风险评估,利用强化学习提高提取效率,同时提出的评分函数与模型无关,具有广泛的适用性和较高的准确性。
技术关键词
数据窃取风险
预训练模型
分子
训练集
模板结构
基元
数据提取方法
评估系统
数据获取模块
定义
参数
代表
阶段