一种基于动态检查点策略的大模型分布式训练故障处理方法

正文

推荐专利

申请号：CN202510820987

申请日期：2025-06-19

公开号：CN120317318B

公开日期：2025-08-29

类型：发明专利

摘要

本发明属于大模型分布式训练领域，特别涉及一种基于动态检查点策略的大模型分布式训练故障处理方法。包括：（1）集群拓扑和环境动态感知的检查点分布式存取策略（2）变化趋势感知的大模型迭代时间预测方法（3）模型训练迭代时间和趋势感知的检查点频率决策方法。本发明解决了传统检查点恢复过程中的速度和损失问题，还通过动态调整检查点更新频率，优化了资源利用率，减少了训练过程中的冗余开销。这些改进使得大规模深度学习模型在面对复杂训练环境时，能够更加灵活和高效地应对故障，确保训练的连续性和稳定性，从而为大模型训练技术的发展提供了新的思路和方向。

技术关键词

检查点分布式训练环境动态感知存取策略副本内存集群时间预测方法决策方法序列频率历史故障信息数据中心内部网络 LSTM模型深度Q网络动态分层决策节点

系统为您推荐了相关专利信息

蓄电池监测控制方法、模型训练方法及存储介质

单体蓄电池指令监测控制方法蓄电池组网络

基于智能感知的康养数据处理方法及系统

环境感知数据多模态生理数据处理方法健康风险预测空气质量指数

权重流水并行的神经网络分布式训练方法和装置

分布式训练方法结点流水非暂态计算机可读存储介质阶段

基于模拟退火算法的燃气消防安全检查和优化系统

模拟退火算法孤立森林算法检查点可视化模块燃气设备

大模型恢复训练的方法及装置、存储介质及电子装置

节点数据并行策略参数模型更新优化器

一种基于动态检查点策略的大模型分布式训练故障处理方法

站点导航

APP 下载