摘要
本申请实施例提供一种模型训练方法、装置和计算设备集群。方法应用于训练集群,训练集群包括多个模型训练组的第一模型训练组和第二模型训练组,第一模型训练组和第二模型训练组用于以数据并行的方式并行训练神经网络模型,方法包括:在一轮训练结束后生成第一及第二节点的检查点数据;第一训练节点将检查点数据保存到第一训练节点的内存中,以及,第二训练节点将检查点数据保存到第二训练节点的内存中;若第一训练节点在对模型进行训练过程中发生故障,则第一训练节点从第二训练节点的内存中获取检查点数据。根据本申请实施例的模型训练方法,可以减少通信资源的消耗,减少对远端存储的性能和带宽需求,显著降低整体系统的成本。
技术关键词
检查点
节点
并行训练神经网络
存储控制模块
内存
集群
模型训练方法
恢复控制模块
数据上传模块
计算机程序指令
模型训练装置
计算机程序产品
可读存储介质
存储器
处理器
电子设备
参数
系统为您推荐了相关专利信息
固定翼无人机
误差控制
分布式控制架构
速度跟踪控制器
节点
无人机飞行路径
实时信息
优化调节方法
飞行路径规划
规划算法
材料导热系数
主控芯片
温度传感器
热传导方程
电热丝