应用于分布式训练系统的训练容错方法、装置及芯片产品

AITNT
正文
推荐专利
应用于分布式训练系统的训练容错方法、装置及芯片产品
申请号:CN202411545366
申请日期:2024-10-31
公开号:CN119514724A
公开日期:2025-02-25
类型:发明专利
摘要
本申请提供了一种应用于分布式训练系统的训练容错方法、装置及芯片产品,涉及分布式训练技术领域。该方法包括:在分布式训练任务执行中断的情况下,从多个计算节点中确定故障节点,故障节点是指无法继续参与执行分布式训练任务的计算节点;基于多个计算节点分别所属的网络域,确定第一网络域,第一网络域为故障节点所属的网络域;在第一网络域中存在备用节点的情况下,从第一网络域中选择备用节点以替换故障节点。本申请实施例通过采用与故障节点属于同一网络域的备用节点,来替换故障节点,有利于维持分布式训练任务的执行稳定性和执行效率。
技术关键词
分布式训练系统 容错方法 替换故障节点 可读存储介质 计算机程序产品 网络结构 容错装置 计算机设备 处理器 芯片 交换机 存储器 时间段 模块
系统为您推荐了相关专利信息
1
动态拥挤度优化的装备磁性元件设计方法、设备及介质
磁性元件 损耗 动态 磁芯材料 装备
2
场景化自适应的语义识别方法、系统、设备和存储介质
语义识别方法 文本 场景化数据 标签 训练集
3
直播互动方法、装置、设备、存储介质及程序产品
账号 直播互动方法 元素 界面 直播应用程序
4
审计代码生成模型训练方法、装置及相关设备
模型训练方法 样本 模板 数据 自然语言文本
5
任务的动态调度方法、设备、服务器及存储介质
动态调度方法 神经网络模型 队列 处理器 可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号