摘要
本申请涉及一种基于分布式并行计算AUC的模型变量筛选方法、装置、电子设备、计算机可读介质及计算机程序产品。该方法包括:确定待进行筛选的模型变量;将所述模型变量对应的样本集划分为多个样本子集;将所述多个样本子集分发到Spark分布式系统的多个节点中进行并行分箱计算得到局部AUC;将多个节点的局部AUC汇总到Spark分布式系统的中心节点进行加和处理,生成模型变量对应的全局AUC;通过所述全局AUC确定模型变量对正负标签的判别能力,从而进行模型变量的筛选。本申请采用分布式计算降低了单一数据源或中心存储敏感数据的依赖性,既能够满足高效的数据分析需求,又能够降低数据泄露的安全隐患。
技术关键词
分布式系统
分布式并行计算
变量筛选方法
样本
分箱
节点
计算机程序产品
梯度提升模型
变量模块
标签
处理器
分发模块
随机森林
筛选装置
电子设备
存储装置
系统为您推荐了相关专利信息
成分含量
光谱预处理方法
测定方法
注射用无菌粉末
定量分析模型
预测类别
样本
检测模型训练方法
生成对抗网络
图像
氯离子扩散系数
直观展示模型
样本
网格搜索方法
特征选择方法
外观缺陷检测方法
保护膜
神经网络模型
外观缺陷检测系统
结构光