摘要
本发明提供了一种面向海量数据的聚类方法及系统,涉及数据技术领域,该方法包括将空间进行网格划分,并将所有数据点分配至对应的网格内,并创建边长为网格结构一半的子网格结构;构建网格索引并检索网格的邻居;在子网格结构中,通过对每个数据点的邻域进行遍历并计算距离,对海量数据的核心点进行识别;根据海量数据的核心点识别结果,进行核心网格的合并以及分配非核心点,完成面向海量数据的快速聚类。本发明解决了传统基于密度的聚类算法无法实现对海量规模数据集进行处理(特别是在参数MinPts较大时)的问题。
技术关键词
面向海量数据
网格
核心
点分配
坐标
邻居
计数器
邻域
聚类系统
计数表
索引
参数
模块
标记
规模
算法
密度
系统为您推荐了相关专利信息
COX模型
外周血
分类方法
非酒精性脂肪肝炎
因子
表格编辑方法
电子白板
合并单元格
接触点
机器学习算法
三维图像处理方法
三维人脸模型
人脸网格模型
人脸三维模型
拉普拉斯
自主巡检方法
设备状态数据
异常设备
设备异常检测
螺旋式
变电站
图像处理模型
图像处理单元
驱赶装置
图像采集单元