一种基于容器的算法训练平台故障自动处理方法及系统

AITNT
正文
推荐专利
一种基于容器的算法训练平台故障自动处理方法及系统
申请号:CN202410858878
申请日期:2024-06-28
公开号:CN118606005A
公开日期:2024-09-06
类型:发明专利
摘要
本申请公开了一种基于容器的算法训练平台故障自动处理方法及系统,所述方法包括:采集集群节点的运行指标,并根据所述运行指标识别故障节点;或通过查询和监听的方式监控集群业务命名空间下的容器对应的任务状态,根据所述任务状态识别故障节点;对识别的故障节点进行隔离及重启处理,并对重启的节点进行冷却处理;对冷却处理后的节点恢复任务执行状态,并根据恢复后的节点的任务执行结果将对应的节点从故障节点转换为正常节点。本申请基于k8s apiserver插件机制实现训练平台的监控和故障容器节点隔离指令的决策,解决k8s集群中的节点因硬件资源故障或者环境配置异常导致的AI算法训练平台任务频繁失败的问题。
技术关键词
识别故障 容器 集群节点状态 算法 平台 指标 历史运行状态 插件机制 可读存储介质 识别标签 处理器 识别模块 存储器 计算机 污点 车辆 数据
系统为您推荐了相关专利信息
1
一种惯性测量阵列最优加权平均数据融合方法
数据融合方法 果蝇优化算法 阵列 隔震平台 加权平均法
2
一种液压动力机流量控制系统
液压动力机 流量控制系统 数据处理模块 采集单元 数值
3
基于Neo4j的企业受益人的判定方法
判定方法 节点 关系 企业 数据平台
4
电力资源利益分配方法、装置、系统及存储介质
利益分配方法 火电 风电 功率 电力系统
5
基于多目标规划模型的电力交易方法、系统、设备及介质
电力交易方法 粒子群算法求解 电力交易系统 电力交易技术 极值
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号