摘要
本申请提供了一种应用于分布式训练系统的训练容错方法、装置及芯片产品,涉及分布式训练技术领域。该方法包括:对于包括多个计算节点以及至少一个备用节点的分布式训练系统,在备用节点被设置为新计算节点的情况下,从多个计算节点中确定与新计算节点相关的目标计算节点;将目标计算节点的内存中存储的检查点数据,迁移至新计算节点,其中,检查点数据用于指示计算节点参与执行分布式训练任务时的状态;控制新计算节点基于检查点数据参与执行分布式训练任务。本申请实施例通过将目标计算节点的内存中存储的检查点数据,迁移至新计算节点,而无需从持久化存储系统中读取检查点数据,有利于提高检查点数据的读取效率。
技术关键词
分布式训练系统
节点
检查点
容错方法
内存
可读存储介质
数据
RDMA技术
计算机程序产品
化存储系统
阶段
容错装置
计算机设备
处理器
芯片
传输方法
网络
存储器
系统为您推荐了相关专利信息
深度强化学习
注意力机制
决策方法
特征提取网络
动静态特征
协同调度方法
多模态
分布式电源出力
注意力机制
动态
服务设计方法
链式结构
SHA256算法
NoSQL数据库
消息