摘要
本发明公开了一种面向流水线并行训练的重计算感知模型拆分方法及系统,属于计算机科学人工智能领域。本发明方法具体为:使用dijkstra算法以及两层二分搜索,计算重计算感知模型拆分下流水线microbatch的前向传播和反向传播时间之和最小值;并使用搜索过程中dijkstra算法得到的中间结果计算并输出一种重计算感知的近似最优的模型拆分策略。本发明利用Trasformer大模型的模型特征、流水线并行模式的特征,设计了模型拆分方法和系统,对模型非均匀拆分到流水线各个阶段,保证开启重计算时各流水线阶段计算负载均衡,从而提高了大模型流水线并行训练整体性能和集群设备的利用效率。
技术关键词
流水线
拆分系统
阶段
拆分方法
规模
计算机科学人工智能
策略搜索方法
记忆
机制
有向无环图
寻路算法
模型训练模块
信息采集模块
代表
子模块
数据
节点
系统为您推荐了相关专利信息
输配电工程
配额
多时间尺度优化
优化调度模型
双层规划模型
脚本
分布式云平台
多模态
数据并行策略
非暂态计算机可读存储介质
拆除螺栓
左手
人体关键点检测
识别模块
拧松螺栓
土地利用数据
区域识别方法
区域生长算法
农村
规模
配平方法
偏心设备
粒子群优化方法
三维建模软件
空间结构尺寸