摘要
本发明公开了一种用于分布式数据库的统计信息基数估计方法,优化了分布式蓄水池采样算法和基数估计算法。在分布式蓄水池采样过程中,各节点独立采样后,然后将样本发送到作为数据流处理核心的网关节点。网关节点进行样本的汇总处理,并执行进一步的再抽样,提高了数据流处理效率和采样精度。基数估计采用优化的4比特基数估计(QuadBit HLL+)算法,通过稀疏与密集模式的智能切换与可变长度编码和差分编码技术,根据数据特性动态优化内存使用。通过调整寄存器的大小,采用基础寄存器和偏移寄存器相结合的方法,降低内存使用。此外,该算法的哈希函数采用xxhash,增强了基数估计的效率和准确性。
技术关键词
蓄水池
基数估计方法
分布式数据库系统
统计算法
模式
数据项
差分编码技术
内存
样本
元素
关节点
基础
修正偏差
索引
列表
估计算法
精度