摘要
本申请公开了资源管理方法及计算设备。该方法应用于服务器集群的管理节点,服务器集群用于处理分布式任务,分布式任务包括多个子任务,服务器集群中的多个目标计算单元用于分别训练子任务。该方法包括:在处理分布式任务的过程中,确定每个目标计算单元训练子任务时是否出现异构计算资源溢出事件;若是多个目标计算单元中的第一目标计算单元出现了异构计算资源溢出事件,则对训练分布式任务的资源执行扩容操作。如此,一旦任一目标计算单元训练子任务时出现此事件,训练子任务所需的资源不足则无法支撑训练完成,便对训练分布式任务的资源执行扩容操作,保证资源的足够性以便于分布式训练的继续。如此,提升了分布式训练的训练效率。
技术关键词
服务器集群
资源管理方法
分布式训练
神经网络处理器
资源使用量
节点
图形处理器
容器
存储器
计算机
周期
指令
日志
系统为您推荐了相关专利信息
总线模块
存储模块
模块化热插拔
带宽分配效率
控制模块
无人机电池
资源管理系统
路径规划单元
时间段
生成无人机
智慧消防系统
分布式传感器
分布式数据库
深度学习模型
机器学习模型
教育培训管理系统
教育培训管理方法
教育培训方法
降噪麦克风
多模态
中断控制单元
多核通信系统
数据项
存储单元
模块