摘要
本发明公开了一种分布式存储系统中基于模糊聚类的重复数据删除方法,包括有分块、超块、聚类中心、待存储文件S、相似度Ri、阈值δ、指纹、索引表、指纹索引更新模块。该种分布式存储系统中基于模糊聚类的重复数据删除方法,通过将基于文件类型及划分策略应用到相似聚类中,构建了文件映射表,根据重复内容对文件进行分类,并根据文件类型进行分块,创建一个类似于树形结构,并利用二分查找的方式来快速找到目标数据,这种方法通过分层和逐步缩小搜索范围,提高查找效率,在提高重复数据识别率的同时减少元数据管理开销,从而保持系统性能,不牺牲部分去重效率也可保证数据吞吐量和系统容错能力。
技术关键词
重复数据删除方法
分布式存储系统
指纹
初始聚类中心
分块
索引表
元数据管理
系统容错
模块
更新系统
树形结构
哈希算法
动态更新
集群
策略
代表