Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法和系统

AITNT
正文
推荐专利
Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法和系统
申请号:CN202510849172
申请日期:2025-06-24
公开号:CN120653683A
公开日期:2025-09-16
类型:发明专利
摘要
本发明公开了一种Spark框架中基于数据本地性和负载均衡感知的中间数据分区方法,首先,针对Shuffle阶段生成的大量中间键值对数据,统计各个键簇在Spark集群各节点上的分布情况,构建出能够量化节点间数据不均衡程度的分布倾斜模型,从而获取更加真实、全面的数据分布信息;随后,利用分布倾斜度指标对所有键簇进行分类,将其划分为倾斜分布与非倾斜分布两类,以实现差异化的分配策略设计;然后,对于具有倾斜分布的键簇,引入偏好节点的概念,将在同一偏好节点上分布密集的多个键簇优先分配到同一分区中,从而增强数据的局部集中性,实现reduce任务的数据本地性最优化;最后,在初步分区结果的基础上,对非倾斜分布的键簇采用负载均衡分配策略。
技术关键词
数据分区方法 键值 计数器 集群 框架 指标 节点间数据 模块 倾斜模型 分区系统 机架 数据分布 参数 策略 概念 按键 典型
系统为您推荐了相关专利信息
1
一种仿真实验数据集成与可视化分析方法及系统
可视化分析方法 军事 子系统 仿真数据 Vue框架
2
基于车牌识别的交通数据采集方法及系统
交通数据采集方法 智能边缘设备 车牌 车辆 实时视频流
3
抗弯伸缩臂以及换电机器人
伸缩梁 换电机器人 电池抓取机构 伸缩臂结构 换电设备
4
承压设备基于磁致伸缩的多物理场缺陷检测方法及系统
应力场 深度神经网络 深度回归网络 特征字典 物理
5
仿生机器鱼
仿生机器鱼 头部组件 弹性单元 刚度 驱动泵
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号