摘要
本申请实施例提供了一种模型训练节点故障恢复方法、故障检测设备、装置及介质,涉及人工智能技术领域,应用于故障检测设备,故障检测设备与分布式计算集群中的节点通信连接,上述方法包括:接收第一节点发送的故障信息,故障信息是第一节点确定自身发生故障并暂停执行目标任务后发送的;向第一节点发送包含备用节点标识的数据克隆指令,以使得第一节点向备用节点标识指示的第二节点发送第一节点的运行参数,第二节点为备用的空闲节点;在检测到第二节点处于正常状态后,向第二节点发送运行启动指令,以使得第二节点基于所接收的运行参数执行目标任务。应用本申请实施例提供的方案能够在分布式计算集群中的节点发生故障后进行故障恢复。
技术关键词
故障检测设备
分布式计算集群
节点故障恢复方法
指令
管理网络通信
参数
机器可读存储介质
标识
故障恢复装置
访问存储系统
处理器
数据
信息接收模块
人工智能技术
收发器
计算机
系统为您推荐了相关专利信息
大语言模型
文本编码器
解码器
答案
自然语言文本