应用于分布式训练系统的训练容错方法、装置及芯片产品

AITNT
正文
推荐专利
应用于分布式训练系统的训练容错方法、装置及芯片产品
申请号:CN202411548597
申请日期:2024-10-31
公开号:CN119514725A
公开日期:2025-02-25
类型:发明专利
摘要
本申请提供了一种应用于分布式训练系统的训练容错方法、装置及芯片产品,涉及分布式训练技术领域。该方法包括:对于包括多个计算节点以及至少一个备用节点的分布式训练系统,在备用节点被设置为新计算节点的情况下,从多个计算节点中确定与新计算节点相关的目标计算节点;将目标计算节点的内存中存储的检查点数据,迁移至新计算节点,其中,检查点数据用于指示计算节点参与执行分布式训练任务时的状态;控制新计算节点基于检查点数据参与执行分布式训练任务。本申请实施例通过将目标计算节点的内存中存储的检查点数据,迁移至新计算节点,而无需从持久化存储系统中读取检查点数据,有利于提高检查点数据的读取效率。
技术关键词
分布式训练系统 节点 检查点 容错方法 内存 可读存储介质 数据 RDMA技术 计算机程序产品 化存储系统 阶段 容错装置 计算机设备 处理器 芯片 传输方法 网络 存储器
系统为您推荐了相关专利信息
1
一种基于深度强化学习与注意力机制的宏观工艺决策方法
深度强化学习 注意力机制 决策方法 特征提取网络 动静态特征
2
一种基于多模态强化学习的微电网动态协同调度方法
协同调度方法 多模态 分布式电源出力 注意力机制 动态
3
一种应用于港口的可信智慧服务设计方法
服务设计方法 链式结构 SHA256算法 NoSQL数据库 消息
4
一种链路可重构光学芯片
MEMS开关器件 波导 光栅耦合器 端口 链路
5
一种油中溶解气体监测方法及系统
溶解气体监测 色谱 节点 信号值 偏差
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号