面向算法训练的GPU集群高效调度的方法及系统

AITNT
正文
推荐专利
面向算法训练的GPU集群高效调度的方法及系统
申请号:CN202510056861
申请日期:2025-01-14
公开号:CN119987967A
公开日期:2025-05-13
类型:发明专利
摘要
本发明公开了一种面向算法训练的GPU集群高效调度方法及系统,包括:训练任务拆分、集群利用率及健康状况指标监控、显存共享与隔离以及GPU分时共享、任务调度。本发明借助k8s集群管理框架动态分配任务并将任务信息、集群状态信息以及任务实时状态信息等数据录入,结合开源的GPU显存共享和隔离插件,借助k8swebhook插入自定义的调度逻辑,可以实现每个子任务的每个步骤都按需调度到合适的集群节点上而且借助插件和自定义webhook以及pod Operator。实现了算法任务调度的最大灵活性和较高的GPU集群利用率,使得用户无需关心底层分配的逻辑和细节,只需要等待任务执行完成并拿到最终执行结果即可,不存在任务超限被系统终止的情况,也降低了集群不稳定的风险。
技术关键词
高效调度方法 调度系统 共享GPU显存 任务调度 算法 节点 资源监控 显卡 指标 容器 监控模块 集群服务器 分布式锁 物理 实时状态信息 隔离插件 队列
系统为您推荐了相关专利信息
1
基于传感器融合的联合收获机实时喂入量预测方法及系统
传感器融合 卡尔曼滤波算法 过桥 扭矩传感器 方程
2
一种基于视觉检测的耳机外观外壳外观缺陷检测方法
外观缺陷检测方法 耳机外壳 多模态特征 模型训练模块 视觉
3
一种基于形态学滤波和正交匹配追踪的轴承故障诊断方法
轴承故障诊断方法 形态学滤波 滚动轴承振动加速度 形态滤波器 多尺度形态学
4
一种改进的PAC码快速列表译码方法及相关装置
节点 译码方法 信噪比 译码码字 译码参数
5
一种大坝裂缝检测方法、装置、电子设备及存储介质
大坝裂缝检测方法 特征金字塔网络 注意力机制 检测裂缝 关系建模
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号