摘要
本发明提供一种支持模型训练和参数检查点操作并行执行的方法和装置,包括:在深度学习网络模型训练的参数检查点操作阶段,创建一个单独的新线程,所述新线程执行加速卡检查点数据异步并行保存;在深度学习网络模型训练的参数更新阶段前,检查加速卡检查点数据异步并行保存过程是否完成,如未完成,则等待完成后再进行参数更新。本发明通过把参数检查点操作过程和网络模型训练过程并行执行,可以有效降低单次检查点的时间开销。
技术关键词
检查点
深度学习网络模型
加速卡
参数更新模块
内存
主机
数据
网络模型训练
阶段