摘要
本发明公开一种适用于异构集群的深度学习模型自动并行训练方法,接受训练所需的异构集群与深度学习模型为输入;对于深度学习模型,获取其在训练系统上的执行性能信息;对于训练所需集群,获取集群的执行性能信息,并生成集群的最大同构节点集合与节点集合划分;随后遍历每种节点集合划分,对于其内部包含的所有节点集合,求解该节点集合的最大吞吐量;随后通过基于整数二次规划方法的负载均衡算法求解当前节点集合划分的最大吞吐量,从而求解出所有节点集合划分中的最优策略并输出。本发明支持在异构集群设置下求解给定深度学习模型的最优并行策略。可应用于由同构或异构设备组成的单机多卡、多机多卡等多种分布式训练环境。训练效率高,能耗少。
技术关键词
并行训练方法
节点
二次规划方法
集群
负载均衡算法
列表
并行策略
生成算法
深度优先搜索方法
深度优先搜索算法
深度学习模型训练
批量
分布式训练
计算机设备
异构设备
可读存储介质
系统为您推荐了相关专利信息
运输路径优化方法
需求预测模型
保鲜需求
时间敏感特征
冷藏设备
知识点
集群
课堂教学内容
数据收集单元
教学质量评估系统
栅格地图
邻域搜索策略
检测节点状态
终点
切比雪夫
发光单元
背光模组
电源管理装置
电压控制方法
微控开关
全局风险指标
定位终端
节点特征
分布式账本
多模态生理