摘要
本发明涉及模型训练技术领域,公开了一种模型分布式训练调度方法、系统、计算机设备及存储介质,该方法包括:构建待调度网络拓扑结构,其中,待调度网络拓扑结构为将模型网络拓扑进行结构转换后获得;确定模型训练并行策略;根据待调度网络拓扑结构以及模型训练并行策略生成调度规划;基于调度规划启动计算节点并给每个计算节点注入环境变量;根据环境变量将模型训练任务进行拆分,并将拆分后的模型子训练任务分配至对应的计算节点上。本发明根据待调度网络拓扑结构以及模型训练并行策略生成调度规划,再根据调度规划对计算节点进行调度以及模型并行训练任务分配,这样可以让并行训练的节点尽量减少跨层通信,从而使并行训练的效率达到最高。
技术关键词
网络拓扑结构
并行策略
分布式训练
恢复故障
规划
流水线
计算机设备
模型训练技术
可读存储介质
调度系统
存储器
处理器
指令
模块
节点数
数据
强度
系统为您推荐了相关专利信息
巡检机器人
水工建筑物
三维点云数据
导航方法
水文
船舶路径规划方法
动态障碍物
人工势场
斥力势场
样条
储能模块
充电桩测试系统
电源接口模块
能量回馈模块
光伏组件
消化内镜
驱动结构
模式
微型激光雷达
力觉传感器