摘要
本发明提供一种模型训练方法、装置、设备和介质,其中方法包括:基于模型在反向传播中进行的通信处理,将模型划分为多个模块;从多个模块中确定目标模块,对目标模块进行反向传播;在得到目标模块的反向传播结果的情况下,基于反向传播结果同时进行通信处理和反向梯度累加;在通信处理和反向梯度累加结束后,返回从多个模块中确定新的目标模块,直至多个模块均完成反向传播;基于反向梯度累加的结果,对模型进行参数迭代。本发明提供的方法、装置、设备和介质,将反向梯度累加的耗时掩盖在通信处理耗时中,由此缩短模型训练耗时,提升模型训练效率,从而改善模型训练性能,同时及时删除反向梯度临时显存有效降低峰值显存。
技术关键词
模型训练方法
模块
人工智能芯片
模型训练装置
处理器
计算机程序产品
介质
存储器
参数
电子设备
内存
数据