摘要
本公开提供了一种网络容错方法、装置、设备、介质和产品,涉及人工智能技术领域,具体涉及网络通信、云计算、算力、大模型等技术领域。网络容错方法包括:获取GPU集群中的主用网卡的网卡状态;所述GPU集群用于执行大模型任务;所述网卡状态是基于主用网卡自身获得的;在所述网卡状态包括故障状态时,中止执行大模型任务;在中止执行所述大模型任务后,将所述故障状态对应的故障网卡上的数据切换到所述故障网卡对应的备用网卡上;所述备用网卡是基于目标通信库分配的,所述目标通信库用于为所述GPU集群提供通信服务;在基于所述目标通信库确定所述GPU集群完成网卡切换后,恢复执行所述大模型任务。本公开可以提高网络容错性能。
技术关键词
网卡
网络容错
集群
通信服务
链路
人工智能技术
数据
计算机程序产品
处理器通信
网络通信
指令
可读存储介质
模块
存储器
电子设备
资源
系统为您推荐了相关专利信息
管理方法
集群
进程
计算机云计算技术
文件读事件
收发机
处理单元
接入点设备
功率控制策略
中央处理器