Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法和系统

正文

推荐专利

申请号：CN202510849172

申请日期：2025-06-24

公开号：CN120653683A

公开日期：2025-09-16

类型：发明专利

摘要

本发明公开了一种Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法，首先，针对Shuffle阶段生成的大量中间键值对数据，统计各个键簇在Spark集群各节点上的分布情况，构建出能够量化节点间数据不均衡程度的分布倾斜模型，从而获取更加真实、全面的数据分布信息；随后，利用分布倾斜度指标对所有键簇进行分类，将其划分为倾斜分布与非倾斜分布两类，以实现差异化的分配策略设计；然后，对于具有倾斜分布的键簇，引入偏好节点的概念，将在同一偏好节点上分布密集的多个键簇优先分配到同一分区中，从而增强数据的局部集中性，实现reduce任务的数据本地性最优化；最后，在初步分区结果的基础上，对非倾斜分布的键簇采用负载均衡分配策略。

技术关键词

数据分区方法键值计数器集群框架指标节点间数据模块倾斜模型分区系统机架数据分布参数策略概念按键典型

系统为您推荐了相关专利信息

一种仿真实验数据集成与可视化分析方法及系统

可视化分析方法军事子系统仿真数据 Vue框架

基于车牌识别的交通数据采集方法及系统

交通数据采集方法智能边缘设备车牌车辆实时视频流

抗弯伸缩臂以及换电机器人

伸缩梁换电机器人电池抓取机构伸缩臂结构换电设备

承压设备基于磁致伸缩的多物理场缺陷检测方法及系统

应力场深度神经网络深度回归网络特征字典物理

仿生机器鱼

仿生机器鱼头部组件弹性单元刚度驱动泵

Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法和系统

站点导航

APP 下载