摘要
本申请提供一种基于异构集群的模型训练方法、装置及电子设备,获得异构集群的各GPU的算力资源及GPU拓扑结构图;接收到待执行训练任务后选择算力资源满足待执行训练任务所需的算力资源的备选池作为预选池,从预选池中选择算力评估值满足预设要求的调度池以利用调度池的各GPU完成训练任务。预选池的算力评估值基于预选池的负载均衡度、资源碎片率及拓扑结构得分确定,负载均衡度及资源碎片率基于预选池中的GPU的算力资源确定,拓扑结构得分基于预选池的拓扑结构中各GPU间的传输路径的长度确定。利用算力资源衡量GPU的算力能力,结合负载均衡度、资源碎片率及预选池的拓扑结构选择调度池完成训练任务,充分发挥异构集群的能力。
技术关键词
异构
集群
监控指标数据
资源
模型训练方法
计算机程序指令
模型训练装置
传输路径
电子设备
模型训练模块
处理器
可读存储介质
备份
存储器
系统为您推荐了相关专利信息
数据
编码向量
检测模型训练方法
训练流量检测模型
流量检测方法
管理控制方法
异常数据点
管理策略
核心
学科知识图谱
资源调度模型
资源调度策略
故障预测模型
故障预测方法
优化调度策略
客户端
联邦学习方法
滑动窗口
持续学习方法
深度神经网络模型