一种大模型流水线并行训练下的二维序列拆分方法及系统

AITNT
正文
推荐专利
一种大模型流水线并行训练下的二维序列拆分方法及系统
申请号:CN202510379220
申请日期:2025-03-28
公开号:CN119883383B
公开日期:2025-07-01
类型:发明专利
摘要
本发明公开了一种大模型流水线并行训练下的二维序列拆分方法及系统,属于计算机科学人工智能领域。本发明包括:数据收集模块获取设备基本信息和模型配置信息,包括GPU间带宽、设备显存大小、设备CPU内存大小、GPU‑CPU间带宽、模型维度、模型层数、输入数据序列长度;决策器根据获取的数据生成最优决策;决策内容包括冗余序列长度、保存在GPU的冗余序列比例、保存在CPU的冗余序列比例、时间维度拆分数;深度学习训练模块将所述最优决策整合于模型训练过程,提高系统整体训练性能。本发明结合空闲的显存空间和GPU‑CPU之间的带宽实现了时间空间两个维度上的序列拆分及高效训练,同时最大化了流水线并行训练的训练效率。
技术关键词
序列 拆分方法 冗余 流水线 深度学习训练 数据收集模块 决策 计算机科学人工智能 线性整数规划 注意力机制 拆分系统 通信带宽 处理器 子模块 内存 时间段 存储器 拷贝数
系统为您推荐了相关专利信息
1
基于肌电信号监测的健身设备运动节奏自适应系统
肌电信号监测 健身设备 跑步机 周期 运动
2
一种基于LSTM神经网络的核电厂备件需求预测方法及装置
核电厂备件 LSTM神经网络 需求预测方法 特征数据库 神经网络模型构建
3
交通流量预测模型训练方法、装置、计算机设备和介质
交通流量预测 预测交通流量 样本 时间段 路段
4
一种飞行器非定常气动力预测方法、系统、设备和介质
神经网络预测模型 气动力 LSTM神经网络 滑动窗口 飞行器飞行姿态
5
可变比特率的去冗余语音语义编码方法及装置
语义编码方法 频谱特征 声纹特征 音频 深度神经网络模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号