摘要
本发明公开了一种大模型流水线并行训练下的二维序列拆分方法及系统,属于计算机科学人工智能领域。本发明包括:数据收集模块获取设备基本信息和模型配置信息,包括GPU间带宽、设备显存大小、设备CPU内存大小、GPU‑CPU间带宽、模型维度、模型层数、输入数据序列长度;决策器根据获取的数据生成最优决策;决策内容包括冗余序列长度、保存在GPU的冗余序列比例、保存在CPU的冗余序列比例、时间维度拆分数;深度学习训练模块将所述最优决策整合于模型训练过程,提高系统整体训练性能。本发明结合空闲的显存空间和GPU‑CPU之间的带宽实现了时间空间两个维度上的序列拆分及高效训练,同时最大化了流水线并行训练的训练效率。
技术关键词
序列
拆分方法
冗余
流水线
深度学习训练
数据收集模块
决策
计算机科学人工智能
线性整数规划
注意力机制
拆分系统
通信带宽
处理器
子模块
内存
时间段
存储器
拷贝数
系统为您推荐了相关专利信息
核电厂备件
LSTM神经网络
需求预测方法
特征数据库
神经网络模型构建
神经网络预测模型
气动力
LSTM神经网络
滑动窗口
飞行器飞行姿态
语义编码方法
频谱特征
声纹特征
音频
深度神经网络模型