摘要
本发明属于深度学习模型训练技术领域,具体涉及一种基于异构GPU的大模型自动多维并行化训练系统。本发明系统包括:(一)3D并行编排器,其自动生成数据并行、张量并行和流水线并行的组合,实现负载均衡和资源高效利用;(二)并行执行器,其中,放置管理器,通过优化GPU的物理映射,减少通信开销;模型分割器,依据GPU的性能,优化模型层的划分,实现不同GPU间的负载均衡;通信调度器,实现非对称式的数据并行组之间的梯度同步;(三)动态适配器,当GPU资源发生动态变化时,采用参数级别的检查点恢复机制,快速调整并继续训练,保证训练过程的稳定性和连续性。实验结果表明,本发明能够在异构GPU环境下有效提升大模型的训练效率。
技术关键词
流水线
训练系统
代表
数据
异构
调度器
管理器
阶段
适配器
深度学习模型训练
检查点方法
分割器
子模块
参数
贪心策略
资源
算法
节点
动态
系统为您推荐了相关专利信息
训练集数据
动态特征选择
交互特征
混凝土桥梁裂缝
桥梁病害检测
动态令牌
流量预测模型
派发方法
历史流量数据
画像
电力系统监测方法
电能
判断电力系统
信号
神经网络模型
网络设计方法
模块化热插拔
高耗能组件
多路电源
智能电源分配单元