摘要
本申请提供了一种应用于分布式训练系统的训练容错方法、装置及芯片产品,涉及分布式训练技术领域。该方法包括:在分布式训练任务执行中断的情况下,从多个计算节点中确定故障节点,故障节点是指无法继续参与执行分布式训练任务的计算节点;基于多个计算节点分别所属的网络域,确定第一网络域,第一网络域为故障节点所属的网络域;在第一网络域中存在备用节点的情况下,从第一网络域中选择备用节点以替换故障节点。本申请实施例通过采用与故障节点属于同一网络域的备用节点,来替换故障节点,有利于维持分布式训练任务的执行稳定性和执行效率。
技术关键词
分布式训练系统
容错方法
替换故障节点
可读存储介质
计算机程序产品
网络结构
容错装置
计算机设备
处理器
芯片
交换机
存储器
时间段
模块
系统为您推荐了相关专利信息
动态调度方法
神经网络模型
队列
处理器
可读存储介质