一种面向国产超算系统的大模型训练优化方法及装置

AITNT
正文
推荐专利
一种面向国产超算系统的大模型训练优化方法及装置
申请号:CN202411583800
申请日期:2024-11-07
公开号:CN119647559B
公开日期:2025-09-05
类型:发明专利
摘要
一种面向国产超算系统的大模型训练优化方法,应用于多个国产超算系统的计算设备,每个计算设备配置有GPU,GPU包含至少一个进程,方法应用于Megatron‑DeepSpeed框架,方法包括:确定大模型训练所需要的进程,每个进程确定归属的进程组;基于Megatron‑DeepSpeed框架中张量并行、流水线并行、数据并行的顺序,同时构建进程组,进程组中包括至少一个进程;每个进程在并行训练框架中执行多次前向计算和反向计算,通过进程组的通信机制进行数据交换与同步,前向计算和反向计算包括集合通信。本方法能够提高在国产超算上进行大模型训练时的训练效率。
技术关键词
超算系统 进程 训练优化方法 设备配置 框架 消息传递接口 流水线 优化装置 机制 数据存储 模块 数学 算法 精度 环形
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号