摘要
本发明实施方式公开了交错式流水线并行训练方法、装置、设备、存储介质和程序产品,属于人工智能技术领域。方法包括:基于计算单元数、分块数和大模型的总层数,确定每个分块包含的层数,其中每个分块包含的层数是可配置的;基于计算单元数、分块数和大模型的总层数,确定每个分块包含的层数包括下列中的一个:基于计算单元数、分块数和总层数,以气泡时间为指标而确定每个分块包含的层数;基于计算单元数、分块数和总层数,以显存消耗为指标而确定每个分块包含的层数;基于计算单元数、分块数和总层数,以气泡时间和显存消耗为指标而确定每个分块包含的层数;基于每个分块包含的层数,对大模型执行交错式流水线并行训练。可以提高训练效率。
技术关键词
分块
并行训练方法
气泡
流水线
指标
计算机可读指令
处理器
可读存储介质
人工智能技术
训练装置
模块
程序
存储器
电子设备
系统为您推荐了相关专利信息
可视化分析方法
商业
流场可视化
动态网络结构
attention机制
跟踪预警方法
预警模块
风险
输出预警信息
物联网传感器
XGBoost模型
预测残差
动态
分层
路况因子