摘要
本申请公开了一种文件处理方法、设备和计算机可读存储介质,涉及数据处理技术领域,所述文件处理方法包括:构建Hive治理配置表,所述Hive治理配置表包括分区表和非分区表的治理策略参数;根据所述治理策略参数确定至少一个合并子任务,所述合并子任务对应待合并的所述分区表目录或者所述非分区表目录;确定至少一个所述合并子任务对应的Spark计算任务数量;根据所述Spark计算任务数量将所述合并子任务进行分组,根据分组后的所述合并子任务构建对应的Spark计算任务集合,每一所述Spark计算任务用于串行处理分配到的合并子任务。本申请避免了在数据处理过程中对重复数据的重复计算,提高了管理效率。
技术关键词
目录
分区
执行器
可读存储介质
策略
参数
数据处理技术
标记
计算机
处理器
存储器
集群
核心
标识
算法
系统为您推荐了相关专利信息
金属冲压件
缺陷检验方法
像素点
轮廓
跨尺度特征融合
建筑物
特征提取能力
生成多尺度
卷积模块
跨尺度特征融合
智能仓库
调度系统模型
引导车
调度优化方法
任务分配策略
新生儿监护室
神经网络模型
监控视频图像
预警监控系统
图象