摘要
本发明属于计算机技术领域,公开了一种基于文件合并及热度和时效双重淘汰机制的Hadoop的海量小文件读取方法,如下:接收用户输入的小文件读取请求,判定读取请求的文件是否为小文件;若不是,则向HDFS系统中的NameNode发送请求,所述NameNode根据元数据信息从DataNode中读取相应的文件;若是,则按照小文件完整路径查询Redis缓存模块,若Redis缓存模块中缓存有请求读取的小文件,则直接返回读取小文件给用户;所述Redis缓存模块根据缓存更新策略缓存有部分热度小文件,所述热度小文件是采用基于热点和时效的双重淘汰机制的热度计算公式构建的小文件访问预测模块预测得到的;若Redis缓存模块中没有请求读取的小文件,则向HDFS系统中的NameNode发送请求,所述NameNode根据元数据信息从DataNode中读取相应的文件。
技术关键词
海量小文件读取方法
HDFS系统
机制
读取小文件
模块
数据合并方法
缓存过期时间
策略
配置网络参数
队列
模型更新
动态更新
周期
热点
集群
日志
索引
进程
系统为您推荐了相关专利信息
智能诊断系统
多模态数据融合
组学特征
诊断模块
集成学习方法