摘要
本公开提供了面向大模型场景的任务执行方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及大模型训练、大模型推理技术领域、超大规模集群以及服务器故障排查和故障修复技术领域。具体实现方案为:响应于确定目标任务执行超时,从分布式设备集群中确定用于执行目标任务的设备链路,设备链路包括多个设备,设备包括不同类型的多个设备单元;获取设备链路的设备通信状态信息;基于设备通信状态信息,从设备链路中确定故障设备;基于故障设备的多个设备单元各自的单元状态信息,确定故障单元;以及基于与故障单元的单元类型相匹配的修复方式对故障设备进行修复,以利用修复后设备执行目标任务。
技术关键词
通信状态信息
设备通信状态
网络适配器
设备单元
分布式设备
链路
模型场景
服务器故障排查
处理器
故障修复技术
通信单元
集群
推理技术
人工智能技术
备份
超大规模
计算机程序产品
执行设备
接口
系统为您推荐了相关专利信息
工艺生产流程
设计画板
通用功能模块
专用设备
设备单元
管道缺陷检测系统
管道缺陷识别
视频采集单元
图像
模型训练模块
通信状态信息
延时通信方法
动态场景
环境状态信息
网络通信状态