摘要
本发明涉及数据去重降噪,具体涉及一种能够提升数据去重降噪性能的优化位图算法,利用数组容器存放前4096个整数,当超过4096个整数时,利用位图容器存放;针对长时间持续且数据量较大的场景,为了避免下游业务长时间等待,将同一维度的数据按顺序存放置同一个分区内,并且设置了两级索引,以减少数据寻址时间,提高数据查询效率,进而提高数据去重效率;针对数据分区过程中出现的数据倾斜问题,引入Bitmap算法进行数据去重,避免出现在Shuffle阶段中的数据倾斜,提高数据去重效率;本发明提供的技术方案能够有效克服现有技术所存在的容易出现在Shuffle阶段中的数据倾斜、数据占用空间较大、数据寻址效率较低的缺陷。
技术关键词
算法
存储容器
数据查询效率
索引
符号
数值
阶段
分区
场景
系统为您推荐了相关专利信息
分布式设备
分布式认证
面部特征
语音特征
验证规则
异构计算平台
频谱感知系统
信号处理算法
高速宽带
可视化模块