摘要
本发明公开了一种基于纠删码的流水线并行容错方法和相关装置;属于深度学习技术领域。该方法首先在训练开始前采用双重编码策略初始化冗余块,然后,在all‑reduce操作前更新冗余块参数,保证冗余块和模型参数同步更新,从而在发生故障后恢复;最后,在发生节点失效时,基于现有节点的数据块与冗余块执行恢复流程,通过现有的数据块和冗余块恢复完整的模型参数,该方法能够解决流水线并行与纠删码结合带来的问题,以实现低冗余存储开销和高恢复效率的流水线并行训练容错策略。
技术关键词
冗余
容错方法
流水线
恢复故障
生成数据块
更新模型参数
容错装置
容错策略
深度学习技术
可读存储介质
编码策略
处理器
计算机设备
存储器
节点
元素
字符
系统为您推荐了相关专利信息
智能分析方法
管道结构
布局
贪心策略
神经网络模型
物理实体模型
仿真模型
半成品组件
数字孪生
三维建模软件
生成工具
分区
元数据管理
可靠性特征
深度神经网络模型
图像识别方法
道路图像数据
道路病害
区域建议网络
多尺度特征