摘要
本发明涉及人工智能技术领域,提供一种模型分布式训练优化方法、电子设备和存储介质,其中方法包括:基于模型中的计算操作和通信操作,分别构建计算流和通信流;在模型的训练迭代中,针对至少两个微批次的任务,执行交错流水线调度;其中,交错流水线调度包括:将第一微批次的计算任务调度至计算流执行,同时将第二微批次的通信任务调度至通信流执行,或者,将第一微批次的通信任务调度至通信流执行,同时将第二微批次的计算任务调度至计算流执行,以使第一微批次的任务和第二微批次的任务并行处理。本发明通过对不同微批次的任务执行交错流水线调度,实现了计算任务和通信任务的并行处理,提升了硬件利用率和模型训练效率。
技术关键词
分布式训练
任务调度
通信节点
流水线
非暂态计算机可读存储介质
重构
阶段
电子设备
人工智能技术
处理器
存储器
注意力
系统为您推荐了相关专利信息
接口模块
多业务调度系统
数据存储模块
数据传输模块
任务调度
任务调度方法
策略
跨数据中心
强化学习方法
动态
医学图像分割方法
注意力
上采样
多层感知器
解码器
联合优化方法
多无人机任务分配
规划
人工蜂群算法
非暂态计算机可读存储介质