摘要
本申请实施例提供多模态大模型训练的流水线优化方法及装置,涉及人工智能技术领域。该方法将待训练的多模态大模型的每个模型切片部署至不同的训练设备上,将每个训练批次划分为多个微批次,对于每个训练批次,根据并行调度策略确定不同的训练设备对应的训练序列,训练序列包括每个微批次的前向传播位置、输入反向传播位置和权重反向传播位置,最后在每个训练设备上,基于训练序列执行对应的训练批次的训练过程,直至训练完成。对反向传播过程拆分为输入矩阵的反向传播和权重矩阵的反向传播,与前向传播共同构成三个计算阶段,能够错峰计算,有效填充气泡时间,减少空闲时长,显著降低流水线的气泡比例,大幅提高训练吞吐量。
技术关键词
训练设备
流水线
序列
阶段
多模态
切片
气泡
策略
人工智能技术
优化装置
电子设备
处理器
模块
存储器
矩阵
数据
参数