摘要
本发明公开了一种面向云平台分布式学习作业的多目标容器调度方法与系统,方案中:从整体上充分地考虑了各维度资源的使用,可以有效地实现资源使用平衡,减少资源碎片,并确保集群的负载均衡;并且,通过网络通信感知和GPU拓扑感知技术,量化了分布式学习作业运行时产生的通信开销,不仅考虑了容器间跨节点的通信开销,还将容器内GPU资源的通信开销纳入考虑范围,并为容器指定分配通信效率最高的GPU组合,能够大大提高作业的运行效率;此外,通过改进后的蚁群算法进行多目标优化求解,在保证集群中资源平衡利用和负载均衡的同时,又能够最小化通信开销,兼顾资源的使用效率,提高作业运行性能。
技术关键词
分布式学习
容器调度方法
面向云平台
排序思想
节点
资源
平衡度
蚂蚁
矩阵
集群
蚁群算法
处理器
通信效率
调度系统
网络通信
超参数
可读存储介质
决策
系统为您推荐了相关专利信息
海岛微电网
稳定评估方法
评估算法
计算机程序指令
关系建模
量化风险评估
卷积长短期记忆
电力
监测系统
监测方法
神经网络训练方法
异构设备
训练设备
切割算法
顶点