摘要
本发明公开了一种面向算法训练的GPU集群高效调度方法及系统,包括:训练任务拆分、集群利用率及健康状况指标监控、显存共享与隔离以及GPU分时共享、任务调度。本发明借助k8s集群管理框架动态分配任务并将任务信息、集群状态信息以及任务实时状态信息等数据录入,结合开源的GPU显存共享和隔离插件,借助k8swebhook插入自定义的调度逻辑,可以实现每个子任务的每个步骤都按需调度到合适的集群节点上而且借助插件和自定义webhook以及pod Operator。实现了算法任务调度的最大灵活性和较高的GPU集群利用率,使得用户无需关心底层分配的逻辑和细节,只需要等待任务执行完成并拿到最终执行结果即可,不存在任务超限被系统终止的情况,也降低了集群不稳定的风险。
技术关键词
高效调度方法
调度系统
共享GPU显存
任务调度
算法
节点
资源监控
显卡
指标
容器
监控模块
集群服务器
分布式锁
物理
实时状态信息
隔离插件
队列
系统为您推荐了相关专利信息
传感器融合
卡尔曼滤波算法
过桥
扭矩传感器
方程
外观缺陷检测方法
耳机外壳
多模态特征
模型训练模块
视觉
轴承故障诊断方法
形态学滤波
滚动轴承振动加速度
形态滤波器
多尺度形态学
大坝裂缝检测方法
特征金字塔网络
注意力机制
检测裂缝
关系建模