摘要
本发明提供基于大数据文件集群的文件模糊拷贝方法及系统,涉及文件拷贝技术领域,包括对待匹配文件集提取文件内容、文件名和元数据特征向量,其中,文件内容特征向量基于深度学习模型编码获得。之后,利用分布式计算框架并行计算待匹配文件与目标文件集中文件的相似度得分,该得分通过加权计算文件内容、文件名和元数据特征向量相似度获得,并根据预设阈值筛选生成待复制文件列表。最后,分布式文件系统根据系统资源动态分配复制任务,基于数据块级别并行传输机制执行文件复制,并校验数据完整性,生成复制任务执行报告。本发明能够高效、准确地在大数据文件集群中进行模糊文件拷贝,提高了文件拷贝效率和准确性,降低了系统资源消耗。
技术关键词
分布式计算框架
任务调度器
分布式文件系统
状态转换概率
节点
深度学习模型
资源状态信息
编码
错误率
前馈神经网络
文件拷贝技术
计算机程序指令
校验数据完整性
分布式调度器
进程
数据一致性校验
矩阵