基于纠删码的流水线并行容错方法和相关装置

AITNT
正文
推荐专利
基于纠删码的流水线并行容错方法和相关装置
申请号:CN202510605950
申请日期:2025-05-12
公开号:CN120492220A
公开日期:2025-08-15
类型:发明专利
摘要
本发明公开了一种基于纠删码的流水线并行容错方法和相关装置;属于深度学习技术领域。该方法首先在训练开始前采用双重编码策略初始化冗余块,然后,在all‑reduce操作前更新冗余块参数,保证冗余块和模型参数同步更新,从而在发生故障后恢复;最后,在发生节点失效时,基于现有节点的数据块与冗余块执行恢复流程,通过现有的数据块和冗余块恢复完整的模型参数,该方法能够解决流水线并行与纠删码结合带来的问题,以实现低冗余存储开销和高恢复效率的流水线并行训练容错策略。
技术关键词
冗余 容错方法 流水线 恢复故障 生成数据块 更新模型参数 容错装置 容错策略 深度学习技术 可读存储介质 编码策略 处理器 计算机设备 存储器 节点 元素 字符
系统为您推荐了相关专利信息
1
基于图谱分解的数据元件模型构造、数据分析方法及装置
图谱 模型构造方法 顶点 数据分析方法 元件
2
基于图神经网络的复杂管道结构焊缝布局智能分析方法
智能分析方法 管道结构 布局 贪心策略 神经网络模型
3
一种基于数字孪生的工厂仿真模型构建方法及系统
物理实体模型 仿真模型 半成品组件 数字孪生 三维建模软件
4
一种功能安全软件工具链的鉴定方法
生成工具 分区 元数据管理 可靠性特征 深度神经网络模型
5
融合FPN的R-FCN道路病害图像识别方法及系统
图像识别方法 道路图像数据 道路病害 区域建议网络 多尺度特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号