一种基于动态检查点策略的大模型分布式训练故障处理方法

AITNT
正文
推荐专利
一种基于动态检查点策略的大模型分布式训练故障处理方法
申请号:CN202510820987
申请日期:2025-06-19
公开号:CN120317318B
公开日期:2025-08-29
类型:发明专利
摘要
本发明属于大模型分布式训练领域,特别涉及一种基于动态检查点策略的大模型分布式训练故障处理方法。包括:(1)集群拓扑和环境动态感知的检查点分布式存取策略(2)变化趋势感知的大模型迭代时间预测方法(3)模型训练迭代时间和趋势感知的检查点频率决策方法。本发明解决了传统检查点恢复过程中的速度和损失问题,还通过动态调整检查点更新频率,优化了资源利用率,减少了训练过程中的冗余开销。这些改进使得大规模深度学习模型在面对复杂训练环境时,能够更加灵活和高效地应对故障,确保训练的连续性和稳定性,从而为大模型训练技术的发展提供了新的思路和方向。
技术关键词
检查点 分布式训练 环境动态感知 存取策略 副本 内存 集群 时间预测方法 决策方法 序列 频率 历史故障信息 数据中心内部网络 LSTM模型 深度Q网络 动态分层决策 节点
系统为您推荐了相关专利信息
1
蓄电池监测控制方法、模型训练方法及存储介质
单体蓄电池 指令 监测控制方法 蓄电池组 网络
2
基于智能感知的康养数据处理方法及系统
环境感知数据 多模态生理 数据处理方法 健康风险预测 空气质量指数
3
权重流水并行的神经网络分布式训练方法和装置
分布式训练方法 结点 流水 非暂态计算机可读存储介质 阶段
4
基于模拟退火算法的燃气消防安全检查和优化系统
模拟退火算法 孤立森林算法 检查点 可视化模块 燃气设备
5
大模型恢复训练的方法及装置、存储介质及电子装置
节点 数据并行策略 参数 模型更新 优化器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号