摘要
本公开涉及一种模型训练方法及装置、电子设备、存储介质和计算机程序产品,所述方法包括:确定目标模型中的检查点模块;在前向传播阶段,对检查点模块执行前向计算,以及在显存中仅保存检查点模块执行前向计算过程中的目标参数;在反向传播阶段,若检查点模块中包括的最后一层为Flash Attention层,跳过Flash Attention层的前向重计算,以及根据预设Flash Attention反向算法,确定Flash Attention层的梯度,并对检查点模块中其它各网络层执行前向重计算确定对应的梯度。根据本公开实施例能够节省Flash Attention层前向重计算的冗余计算开销,有效提高训练效率。
技术关键词
检查点
模型训练方法
模块
计算机程序产品
阶段
参数
模型训练装置
线性
算法
电子设备
处理器
可读存储介质
存储器
机制
冗余
系统为您推荐了相关专利信息
机器人主体
电机单元
控制单元
角度传感单元
电信号
数据加密保护方法
Lorenz系统
椭圆曲线加密算法
数据加密保护系统
序列
列车通讯网络
健康管理系统
管理算法
监控模块
无线收发装置