摘要
本申请涉及数据处理技术领域,提供一种通用的并行海量数据处理方法,步骤S1:构造布隆过滤器的位图;步骤S2:计算布隆过滤器的第一哈希函数的个数;步骤S3:配置HLL++算法的第二哈希函数;步骤S4:基于数据标识查询数据处理状态;步骤S5:处理数据,将数据标识登记至布隆过滤器的位图和HLL++算法的桶;步骤S6:执行步骤S4直至所有数据均被处理。本申请可简单增加并行处理节点提升系统处理能力,同时依靠数据处理状态服务极大降低系统处理重复数据的几率,进一步提高数据处理的效率,同时通过配置的算法提高数据处理的准确性。相比传统穿行数据处理方案,本申请具有扩展性好、硬件要求低、资源利用率高等特点。
技术关键词
布隆过滤器
海量数据处理系统
索引
数据源获取数据
标识
算法
数据处理技术
提升系统
节点
识别码
元素
模块
摘要
内存
误差
资源
系统为您推荐了相关专利信息
智能规划系统
时效性
智能调度方法
卫星观测数据
智能调度模型