摘要
本发明公开一种支持并行热切换的大模型训练方法及系统,属于大模型训练技术领域。所述方法包括:生成一逻辑计算图,所述逻辑计算图用于表示多组不同的并行策略组合;编译所述逻辑计算图,生成多个可执行计算图;其中,每一个可执行计算图对应一组并行策略组合;在多个可执行计算图中选取用于初始化大模型状态的初始化图,并根据任两组并行策略组合之间热切换代价,编排可执行计算图之间的执行顺序;基于所述初始化图以及可执行计算图之间的执行顺序进行大模型的训练。本发明不仅可以保证每个分组内的序列计算量/工作负载大致接近,还可以使得并行策略能够在模型训练过程中动态地切换,并正常完成模型的梯度累积和更新。
技术关键词
并行策略
通信量
模型训练方法
逻辑
参数
切片
通信带宽
模型训练技术
模型训练系统
数据
发送方
点对点
布局
序列
动态地
模块
消息
拷贝
内核
系统为您推荐了相关专利信息
决策支持单元
水生态系统
多模型
预测系统
水质监测单元
巡检设备
巡检机器人
粉尘浓度监测
监测点
巡检方法