摘要
本发明提供了一种基于分布式调度的数据批处理方法及系统,所述方法获取多源异构数据,并对所述多源异构数据进行预处理,形成标准化数据集;基于预定的第一阈值,利用筛选流程对所述数据集进行初步异常检测,标记出潜在异常数据;对排除所述潜在异常数据的剩余数据集,采用异常检测算法计算所述剩余数据集中每个数据点的异常分数;根据预设的第二阈值,筛选出异常分数超过所述第二阈值的数据点,标记为高异常数据;生成异常数据;将排除所述异常数据的所述数据集拆分为多个数据块,基于分布式任务调度策略将多个所述数据块分配给对应的处理节点进行并行处理;汇总各所述处理节点的处理结果,提高了数据处理的速度和效率。
技术关键词
数据批处理方法
多源异构数据
异常数据
分布式任务调度
生成数据报表
数据批处理系统
业务系统数据库
标记
节点
插值方法
处理器
模块
算法
策略
因子
密度
存储器
动态
系统为您推荐了相关专利信息
搅拌控制方法
搅拌容器
搅拌控制系统
数据采集频率
搅拌设备
分类识别模型
直流电弧检测方法
多通道
卷积神经网络学习
频域特征
监测预警方法
异常数据
空间聚类分析
传感器误差
天气
多源异构数据融合
负荷
时间段
生理特征数据
压力