摘要
本公开实施例公开了一种慢节点检测方法、装置、设备、存储介质及程序产品,该方法包括:获得参与分布式模型训练的多个处理节点各自的第一时长数据;所述第一时长数据表征对应处理节点在当前迭代的计算耗时;基于所述分布式模型训练的并行策略,对所述第一时长数据进行分组,得到多个组别的第一时长集合;所述并行策略表征所述多个处理节点在前后向传播过程中的关联关系、以及各自承担的训练任务;基于所述多个组别各自的概率密度函数和第一阈值,分别对所述多个组别的第一时长集合进行分析处理,得到所述多个处理节点中的慢节点。如此,能够智能化且准确地检测出分布式模型训练中的慢节点,提高慢节点检测的效率和准确性,具有较强的兼容性。
技术关键词
节点检测方法
分布式模型
概率密度函数
节点检测装置
数据并行策略
计算机程序产品
可读存储介质
处理器
关系
阶段
网络
计算机设备
时序
存储器
流水线