摘要
本公开涉及一种模型训练方法、装置、存储介质和程序产品。所述方法包括:在前向传播阶段,对于任一检查点模块,在显存中保存所述检查点模块的输入和输出,并释放显存中的所述检查点模块的中间激活值;所述检查点模块的输入用于重计算中间激活值,所述检查点模块的输出用于所述检查点模块的后续模块的前向计算;在反向传播阶段,对于任一检查点模块,响应于所述检查点模块的最后一层为线性层,跳过所述最后一层的前向计算,根据所述最后一层对应的梯度公式计算梯度,并根据所述检查点模块中各层的梯度,完成对所述检查点模块的反向传播。本公开能够在与标准重计算方案相同的计算精度和显存节省量的同时,显著降低计算开销。
技术关键词
检查点
模型训练方法
线性
模型训练装置
阶段
多层感知机
计算机程序产品
处理器
组合模块
网络模块
矩阵
可读存储介质
存储器
机制
系统为您推荐了相关专利信息
人工智能模型
预测误差
随机森林模型
控制系统
外部设备
语义分割方法
语义分割模型
增量学习算法
阶段
图像
深度学习模型
深度学习框架
主机
边缘计算环境
数据分布
分类模型训练方法
分类网络
图像分类方法
分支
基础