摘要
本发明涉及基于查询和元数据异常检测的数据湖仓聚簇方法与系统,属于大数据计算技术领域。包括:数据采集与预处理;EC‑GKDE算法异常判定:对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,进行初次判定;元数据信息异常判定:获取异常查询任务的关联表,获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;聚簇优化:提交聚簇任务,将小文件合并为大文件。本发明减少存储资源的开销,大大降低了查询任务需要消耗的时间;本发明可以控制聚簇操作执行的次数,减轻聚簇机制带来的并发更新不支持、增量查询不友好和集群资源浪费的问题。
技术关键词
核密度估计方法
累积分布函数
高斯核函数
大数据计算技术
样本
算法
语句
异常点
特征值
模块
集群
参数
变量
机制
场景
资源
模式
系统为您推荐了相关专利信息
音频特征提取
模态特征
异常声音
多模态
识别方法
硫醚类化合物
标志物
机器学习模型
溯源方法
大蒜产品
语义变化检测方法
建筑物变化检测
语义特征提取
多任务
无人机
山岭隧道
逻辑回归算法
隧道钻爆法施工
预测系统
sigmoid函数