摘要
本发明公开了一种Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法,首先,针对Shuffle阶段生成的大量中间键值对数据,统计各个键簇在Spark集群各节点上的分布情况,构建出能够量化节点间数据不均衡程度的分布倾斜模型,从而获取更加真实、全面的数据分布信息;随后,利用分布倾斜度指标对所有键簇进行分类,将其划分为倾斜分布与非倾斜分布两类,以实现差异化的分配策略设计;然后,对于具有倾斜分布的键簇,引入偏好节点的概念,将在同一偏好节点上分布密集的多个键簇优先分配到同一分区中,从而增强数据的局部集中性,实现reduce任务的数据本地性最优化;最后,在初步分区结果的基础上,对非倾斜分布的键簇采用负载均衡分配策略。
技术关键词
数据分区方法
键值
计数器
集群
框架
指标
节点间数据
模块
倾斜模型
分区系统
机架
数据分布
参数
策略
概念
按键
典型
系统为您推荐了相关专利信息
可视化分析方法
军事
子系统
仿真数据
Vue框架
交通数据采集方法
智能边缘设备
车牌
车辆
实时视频流
伸缩梁
换电机器人
电池抓取机构
伸缩臂结构
换电设备
应力场
深度神经网络
深度回归网络
特征字典
物理