一种面向国产超算系统的大模型训练优化方法及装置

正文

推荐专利

申请号：CN202411583800

申请日期：2024-11-07

公开号：CN119647559B

公开日期：2025-09-05

类型：发明专利

摘要

一种面向国产超算系统的大模型训练优化方法，应用于多个国产超算系统的计算设备，每个计算设备配置有GPU，GPU包含至少一个进程，方法应用于Megatron‑DeepSpeed框架，方法包括：确定大模型训练所需要的进程，每个进程确定归属的进程组；基于Megatron‑DeepSpeed框架中张量并行、流水线并行、数据并行的顺序，同时构建进程组，进程组中包括至少一个进程；每个进程在并行训练框架中执行多次前向计算和反向计算，通过进程组的通信机制进行数据交换与同步，前向计算和反向计算包括集合通信。本方法能够提高在国产超算上进行大模型训练时的训练效率。

技术关键词

超算系统进程训练优化方法设备配置框架消息传递接口流水线优化装置机制数据存储模块数学算法精度环形

一种面向国产超算系统的大模型训练优化方法及装置

站点导航

APP 下载