摘要
本发明公开了一种面向分布式云原生存储的小文件合并优化方法,该方法通过分析HDFS访问日志,将数据转化为适合分析的结构,提出基于用户访问模式的关联性分析算法。使用FP‑Growth算法从文件访问记录中发现关联规则:通过构建FP树压缩事务数据并确定频繁项集,从频繁项集中生成符合支持度和置信度的关联规则。按照上述生成的规则对关联性强弱不同的小文件分别处理:寻找关联性强的小文件,采用基于Huffman树的小文件合并策略对文件进行合并;对于关联性弱的小文件,不断将其加入等待队列,当队列满足HDFS数据节点存储大小条件时进行合并存储。本发明优化了HDFS的文件存储空间,提高了海量小文件的访问效率。属于关联性分析和小文件存储领域。
技术关键词
合并优化方法
分布式云
节点
海量小文件
数据存储设备
FP‑Growth算法
队列
数据服务器
HDFS文件系统
关联性分析算法
数据项
字典
编码
元素
定义规则
分支
机制
树根
索引
系统为您推荐了相关专利信息
学习路径推荐方法
大语言模型
知识点
强化学习方法
LSTM神经网络
网络安全管理方法
员工
网络安全监测
发送消息
分析网络流量