摘要
本发明提供一种基于子空间编码和机器学习模型的洞察发现方法及系统,主要应用场景为探索式数据分析中的自动洞察发现环节。本发明中,针对直接使用数据中的属性列构建特征向量会导致洞察发现过程中的数据范围无法有效区分的问题,通过基于给定的数据范围所对应的数据子空间完成所有的特征提取和编码过程,保证数据范围向量化的唯一性;针对多个数据范围的计算顺序问题,采用随机森林模型对数据范围进行优先级预测,从而在给定的时间预算内对最有可能蕴含洞察的数据范围进行洞察挖掘。本发明与其他现存探索性数据分析过程中的洞察推荐方法相比,无论是效率还是效果都更为优秀,能够在更短的时间挖掘出更有价值的数据洞察并返回给分析人员。
技术关键词
机器学习模型
数据
随机森林模型
查询策略
缓存策略
对象
统计特征
标签
分布特征
三元组
发现系统
队列
推荐方法
统计方法
编码模块
唯一性
标记
阶段