一种用于分布式数据库的统计信息基数估计方法

正文

推荐专利

申请号：CN202411437009

申请日期：2024-10-15

公开号：CN119377290B

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种用于分布式数据库的统计信息基数估计方法，优化了分布式蓄水池采样算法和基数估计算法。在分布式蓄水池采样过程中，各节点独立采样后，然后将样本发送到作为数据流处理核心的网关节点。网关节点进行样本的汇总处理，并执行进一步的再抽样，提高了数据流处理效率和采样精度。基数估计采用优化的4比特基数估计(QuadBit HLL+)算法，通过稀疏与密集模式的智能切换与可变长度编码和差分编码技术，根据数据特性动态优化内存使用。通过调整寄存器的大小，采用基础寄存器和偏移寄存器相结合的方法，降低内存使用。此外，该算法的哈希函数采用xxhash，增强了基数估计的效率和准确性。

技术关键词

蓄水池基数估计方法分布式数据库系统统计算法模式数据项差分编码技术内存样本元素关节点基础修正偏差索引列表估计算法精度

一种用于分布式数据库的统计信息基数估计方法

站点导航

APP 下载