摘要
一种面向国产超算系统的大模型训练优化方法,应用于多个国产超算系统的计算设备,每个计算设备配置有GPU,GPU包含至少一个进程,方法应用于Megatron‑DeepSpeed框架,方法包括:确定大模型训练所需要的进程,每个进程确定归属的进程组;基于Megatron‑DeepSpeed框架中张量并行、流水线并行、数据并行的顺序,同时构建进程组,进程组中包括至少一个进程;每个进程在并行训练框架中执行多次前向计算和反向计算,通过进程组的通信机制进行数据交换与同步,前向计算和反向计算包括集合通信。本方法能够提高在国产超算上进行大模型训练时的训练效率。
技术关键词
超算系统
进程
训练优化方法
设备配置
框架
消息传递接口
流水线
优化装置
机制
数据存储
模块
数学
算法
精度
环形