摘要
本发明公开了一种大批量数据处理方法及系统,涉及大批量数据处理技术领域,包括采用分布式消息队列对多源异构数据进行实时采集,得到原始数据流;采用熵权动态分片算法对原始数据流进行分片处理,得到均匀分布的数据分片;基于原始数据流构建结合HyperLogLog++与布隆过滤器的混合模型,并对数据分片进行去重,得到唯一数据集合;采用Δ‑收敛判据对唯一数据集合进行迭代计算,得到最终分析结果;采用列式存储将分析结果写入分布式文件平台;通过采用分布式消息队列对多源异构数据进行实时采集,实现了高效的数据收集与传输机制,设计使得方法可以轻松应对大规模数据的流入,增强了方法的可扩展性和稳定性。
技术关键词
分片
分布式文件
分布式消息队列
布隆过滤器
数据传输机制
元素
信息熵
动态规划算法
数据分析模块
数据存储模块
梯度下降法
统一数据结构
数据采集模块
异构
格式
系统为您推荐了相关专利信息
商品销售数据
统计分析系统
大数据
权限管理模块
图表
算法
音频数据处理方法
音频数据处理装置
精度校准
分片
数据传输优化方法
车联网环境
网络性能数据
传输路径
尺寸