摘要
本发明实施例提供了一种人工智能训练平台网络故障处理方法、产品、设备及介质,涉及计算机技术领域,该方法包括:按照待测虚拟网络地址对应的定时检测周期,遍历所有管理节点的虚拟网络地址管理服务,获取待测虚拟网络地址在服务器集群中的数目;根据待测虚拟网络地址的数目确定网络状态,根据网络状态确定故障处理方法,本发明实施例通过设置虚拟IP对应的定时检测周期,在定时检测周期到达时,通过检测虚拟IP在服务器集群中的数目分析当前的网络状态,针对不同的网络状态采用不同的故障处理方法进行处理,网络故障恢复能力确保了训练任务即使在网络问题发生时也能持续进行,提高了集群服务的稳定性。
技术关键词
网络地址管理
节点
人工智能训练平台
服务器集群网络
列表
周期
上存储计算机程序
处理器
可读存储介质
计算机程序产品
存储器
电子设备
指令
关系