摘要
本发明公开了一种能耗感知的分布式深度学习任务调度方法及系统。本发明首先获取待调度深度学习任务的任务特征信息;然后基于任务特征信息,利用预先构建的能耗预测模型,预测深度学习任务在不同GPU数量下并行训练时的能耗,并确定能耗最优的GPU数量;最后根据能耗最优的GPU数量,将深度学习任务调度至具有足够空闲GPU资源的计算节点,并为任务分配对应数量的GPU进行并行训练;在训练过程中,动态调整GPU的功率限制,以优化训练能耗。本发明通过预测分布式深度学习模型能耗最优的GPU数量,并在作业部署之后通过动态调正GPU功率限制的方法有效降低了在GPU服务器集群中训练分布式深度学习模型的整体能耗。
技术关键词
分布式深度学习
任务调度方法
深度学习任务调度
能耗预测模型
状态监控模块
功率
节点
任务调度系统
日志
策略
服务器集群
机器学习模型
动态
队列
搜索方法
先进先出
资源
系统为您推荐了相关专利信息
建筑能耗预测方法
能耗预测模型
数据
引入注意力机制
存储程序指令
路径规划方法
纯电动汽车
能耗预测模型
车辆传感器数据
非线性回归模型
能耗预测模型
净化车间
节能监测系统
噪声参数
监测模块