摘要
本发明提供了一种数据排重方法、电子设备和存储介质,方法通过双布隆过滤器交替机制实现数据平滑过渡:第一时间段处理:仅对当前时间窗口的第一布隆过滤器执行查询与添加操作。第二时间段初始化:在第二时间段首个单位时间创建新的第二布隆过滤器,作为下一窗口预备过滤器。双写预热机制:第二时间段内同时向第一、第二布隆过滤器写入数据,避免窗口切换时的漏判问题。窗口切换逻辑:释放旧过滤器资源,将预备过滤器标记为新的主过滤器,实现按月/按周期的无缝衔接。本发明通过双布隆过滤器时间窗口切换机制控制误判率,能够提升数据排重准确性与系统资源利用率,适用于海量数据采集场景下的高效排重需求。
技术关键词
布隆过滤器
数据排重方法
时间段
系统资源利用率
集群
主节点
电子设备
可读存储介质
爬虫
哈希算法
指令
计算机
机制
周期
程序
存储器
处理器
标记
系统为您推荐了相关专利信息
抢占式调度
异构
性能预测模型
队列模型
资源监控
价格预测方法
价格预测模型
随机森林
神经网络模型
关系
高效适配方法
大语言模型
动态
资源调配技术
集群
睡眠阶段分类方法
特征金字塔
金字塔特征
注意力
序列