模型训练节点故障恢复方法、故障检测设备、装置及介质

AITNT
正文
推荐专利
模型训练节点故障恢复方法、故障检测设备、装置及介质
申请号:CN202510821325
申请日期:2025-06-18
公开号:CN120704803A
公开日期:2025-09-26
类型:发明专利
摘要
本申请实施例提供了一种模型训练节点故障恢复方法、故障检测设备、装置及介质,涉及人工智能技术领域,应用于故障检测设备,故障检测设备与分布式计算集群中的节点通信连接,上述方法包括:接收第一节点发送的故障信息,故障信息是第一节点确定自身发生故障并暂停执行目标任务后发送的;向第一节点发送包含备用节点标识的数据克隆指令,以使得第一节点向备用节点标识指示的第二节点发送第一节点的运行参数,第二节点为备用的空闲节点;在检测到第二节点处于正常状态后,向第二节点发送运行启动指令,以使得第二节点基于所接收的运行参数执行目标任务。应用本申请实施例提供的方案能够在分布式计算集群中的节点发生故障后进行故障恢复。
技术关键词
故障检测设备 分布式计算集群 节点故障恢复方法 指令 管理网络通信 参数 机器可读存储介质 标识 故障恢复装置 访问存储系统 处理器 数据 信息接收模块 人工智能技术 收发器 计算机
系统为您推荐了相关专利信息
1
报告生成方法、电子设备、装置、存储介质及程序产品
报告生成方法 文本 语音特征 患者 通信接口
2
物流行业的客户获客激励方法及装置
客户 历史订单数据 激励方法 定价策略 物流
3
数据传输方法、装置及设备
调试设备 加速器 处理器 数据传输方法 控制设备
4
语音控制触觉界面
MC系统 控制设备 语音识别系统 命令 麦克风
5
一种基于长文本训练大语言模型的方法及装置
大语言模型 文本编码器 解码器 答案 自然语言文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号