摘要
本公开涉及一种大模型训练方法、装置、电子设备、存储介质和程序产品。所述方法包括:对于目标大模型的任意一项训练数据,将所述训练数据切分为多份分段数据,并将多份分段数据存储在非易失性存储器中,其中,多份分段数据依次进行前向传播计算和反向传播计算;对于任意一份分段数据,从非易失性存储器读取所述分段数据至显存,并通过GPU对所述分段数据执行前向传播计算,得到所述分段数据对应的激活值;对于任意一份分段数据,通过GPU基于所述分段数据对应的激活值执行反向传播计算,得到所述分段数据对应的梯度数据,并将所述分段数据对应的梯度数据从显存移动至非易失性存储器或者CPU内存。本公开能够降低激活值的显存占用。
技术关键词
分段
非易失性存储器
多层感知器
计算机可读代码
模型训练方法
内存
计算机程序指令
电子设备
数据存储
模型训练装置
可读存储介质
并行工作
计算机程序产品
处理器
参数
注意力
系统为您推荐了相关专利信息
监测预警系统
邻域传感器
历史监测数据
LSTM神经网络
组合模块
室内场景图像
编码模型训练方法
样本
编码器
混合模块
储能设备
模型训练方法
异常检测方法
知识蒸馏技术
联邦学习技术