摘要
本发明公开了一种基于外键聚合和特征选择的数据血缘发现方法及装置,其步骤包括:1)聚合器根据输入的表格数据集、目标列以及表间外键关系,将与目标列所在的表存在关系的表格聚合成一个与目标表行对齐的中间表;2)映射检测模块验证每一候选映射函数能否根据中间表中的列生成目标列,根据验证结果选取一候选映射函数作为最终的映射函数;然后利用映射函数对中间表中与目标列有数据血缘关系的每一列进行回溯,得到目标列的字段级数据血缘;如果各候选映射函数均不能作为最终的映射函数,则执行步骤3);3)从中间表中筛选出对生成目标列贡献最大的列,作为最优特征子集;对最优特征子集中的每一列进行回溯,得到目标列的字段级数据血缘。
技术关键词
随机森林模型
数据血缘关系
特征选择
表格
存储计算机程序
处理器
可读存储介质
存储器
模块
指令
系统为您推荐了相关专利信息
求解算法
参数
存储计算机程序
数据获取模块
能源系统
电梯运行数据
神经网络模型训练
电梯运行控制
离线
时间段
光储充一体化系统
调控模型
排序算法
调控方法
参数
剩余寿命方法
电池剩余容量
数学模型
充放电循环次数
太阳能跟踪系统
稳定性评价方法
随机森林模型
过采样技术
样本
K近邻算法