摘要
本发明涉及人工智能技术领域,提供一种故障恢复方法、装置、电子设备和存储介质,其中方法包括:在检测到训练进程异常或者接收到远程节点故障通知的情况下,停止执行的训练子任务对应的本地训练进程,并对本地硬件的健康状态进行检查,得到检查结果;基于所述检查结果,进行动态组网,并在组网成功后,重新启动所述本地训练进程,以恢复训练子任务的执行。本发明通过引入远程节点故障感知能力,可以缩短故障的发现时间,提高故障恢复效率,通过对本地硬件的健康状态进行检查,能够在重启训练进程之前识别出潜在的硬件问题,从而避免重复故障的发生。
技术关键词
故障恢复方法
节点
组网
进程
人工智能模型
分布式训练
非暂态计算机可读存储介质
动态
通知
电子设备
处理器
人工智能技术
计算机程序产品
平台
存储器
标识