摘要
本文公开了一种多维流式全量索引SFI‑HBase(Streaming Full Index HBase)方法,包括以下步骤:SFI‑HBase在插入数据时,先将数据写入存储层,同时向Kafka发送消息。Spark Streaming从Kafka拉取数据后,先在内存更新索引,再更新HBase全量索引层。读取时,SFI‑HBase的范围查询、KNN查询通过全量索引层获取索引后访问存储层,点查询直接访问存储层。本文提出的二分混合空间填充曲线结合Z曲线和Hilbert曲线,支持多维空间划分,提升局部性20%以上,聚集度50%以上。基于此降维数据,SFI‑HBase构建了高效的多维索引结构。在插入时,利用Spark Streaming聚合存储数据,支持并发插入;查询时,全量索引层存储不同粒度索引,可根据查询条件选择粒度。相较MD‑HBase,SFI‑HBase范围查询效率提升10%,KNN查询效率提升5倍,插入效率提升10倍。
技术关键词
空间填充曲线
数据
索引表
存储表
查询算法
多维索引结构
存储结构
块边界
分区
球体
超参数
内存
索引方法
增量更新
树状结构
节点
发送消息
存储桶
系统为您推荐了相关专利信息
动态管理系统
智能电网
设备故障概率
节点
数据采集模块
综合服务系统
水务系统
状态诊断
贝叶斯神经网络
三维模型
环境监测方法
数据处理中心
决策
无线通信模块
环境监测系统
输液泵控制方法
温度补偿系数
传感器阵列
初始弹性模量
动态