摘要
本申请公开了一种基于容器的算法训练平台故障自动处理方法及系统,所述方法包括:采集集群节点的运行指标,并根据所述运行指标识别故障节点;或通过查询和监听的方式监控集群业务命名空间下的容器对应的任务状态,根据所述任务状态识别故障节点;对识别的故障节点进行隔离及重启处理,并对重启的节点进行冷却处理;对冷却处理后的节点恢复任务执行状态,并根据恢复后的节点的任务执行结果将对应的节点从故障节点转换为正常节点。本申请基于k8s apiserver插件机制实现训练平台的监控和故障容器节点隔离指令的决策,解决k8s集群中的节点因硬件资源故障或者环境配置异常导致的AI算法训练平台任务频繁失败的问题。
技术关键词
识别故障
容器
集群节点状态
算法
平台
指标
历史运行状态
插件机制
可读存储介质
识别标签
处理器
识别模块
存储器
计算机
污点
车辆
数据
系统为您推荐了相关专利信息
数据融合方法
果蝇优化算法
阵列
隔震平台
加权平均法
液压动力机
流量控制系统
数据处理模块
采集单元
数值
电力交易方法
粒子群算法求解
电力交易系统
电力交易技术
极值