摘要
本发明属于大规模深度学习模型训练技术领域,具体为一种基于混合专家并行机制的通信调度方法。本发明的通信调度方法,包括构建负载均衡模块、通信资源分配模块和并行化调度模块三部份,根据专家模型的受欢迎程度与计算负载情况,对专家模型的参数切片与映射策略进行动态调整实现负载均衡;改变通信库的原语执行模式,使All‑Reduce操作支持异步执行,并通过多线程机制并行处理All‑to‑All和All‑Reduce通信任务。在模型训练过程中实现负载均衡和节点间All‑to‑All通信与节点内All‑Reduce通信的并行化。本发明在保持数据一致性的同时,充分利用链路带宽,减少通信等待时间。实验结果表明,在混合专家模型训练中有效提升GPU利用率,减少训练时间。
技术关键词
通信调度方法
通信资源分配
负载均衡模块
通信链路资源
深度学习模型训练
机制
通信等待时间
通信带宽
跨节点
数据
执行器
多线程
策略
同步性
切片
系统为您推荐了相关专利信息
辅助系统
数控车床
智能路径规划
三维模型
视觉检测模块
工作流调度方法
强化学习模型
容器特征
多层感知机
网络
图像增强方法
深度学习数据集
解剖学结构
图像分割
切片
隐伏矿体
定位预测方法
三维地质模型
协同工作平台
并行处理架构