多模态大模型训练的流水线优化方法及装置

正文

推荐专利

多模态大模型训练的流水线优化方法及装置

申请号：CN202510652868

申请日期：2025-05-20

公开号：CN120724372A

公开日期：2025-09-30

类型：发明专利

摘要

本申请实施例提供多模态大模型训练的流水线优化方法及装置，涉及人工智能技术领域。该方法将待训练的多模态大模型的每个模型切片部署至不同的训练设备上，将每个训练批次划分为多个微批次，对于每个训练批次，根据并行调度策略确定不同的训练设备对应的训练序列，训练序列包括每个微批次的前向传播位置、输入反向传播位置和权重反向传播位置，最后在每个训练设备上，基于训练序列执行对应的训练批次的训练过程，直至训练完成。对反向传播过程拆分为输入矩阵的反向传播和权重矩阵的反向传播，与前向传播共同构成三个计算阶段，能够错峰计算，有效填充气泡时间，减少空闲时长，显著降低流水线的气泡比例，大幅提高训练吞吐量。

技术关键词

训练设备流水线序列阶段多模态切片气泡策略人工智能技术优化装置电子设备处理器模块存储器矩阵数据参数

多模态大模型训练的流水线优化方法及装置

站点导航

APP 下载