摘要
本申请涉及一种基于交错式流水线并行策略的大模型训练方法、装置及计算机设备。所述方法包括:基于训练集中的批次数据,采用交错式流水线并行策略进行大模型的训练,其中,交错式流水线并行策略包括:将流水并行迭代过程划分为预热阶段、稳定阶段和冷却阶段,每一计算单元在预热阶段执行N个前向计算任务,其中:N=流水线并行规模×分块数‑计算单元对应的阶段值,述流水线并行规模与计算单元总数均为M,计算单元对应的阶段值为大于或者等于0,且小于M的整数;每一述计算单元在所述稳定阶段,将剩余的前向计算任务穿插于反向计算任务之间交替成对执行,并在述冷却阶段执行剩余的反向计算任务。采用本方法能够提高大模型的训练效率。
技术关键词
并行策略
流水线
阶段
分块
模型训练方法
规模
计算机设备
模型训练装置
计算机程序产品
处理器
数据
可读存储介质
存储器
总量
模块
系统为您推荐了相关专利信息
无人机集群协同
作战单元
更新网络参数
无人机群对抗
监督学习框架
固态硬盘垃圾回收
关系
监测模块
垃圾回收数据
闪存存储系统
疱疹
像素点
语义分割网络
图像块
手足口病检测系统
负荷辨识方法
有功功率
居民用电负荷
轨迹
两阶段