摘要
本发明属于人工智能领域,公开一种用于大模型的分布式checkpoint存取方法,构建分布式checkpoint存取系统,完成checkpoint存储、提取和异常处理,本发明通过checkpoint分片存储与索引调用的方式,避免checkpoint的整存整取,可以显著提升大模型训练效率;通过引入LogMgr、Log hisMgr等模块,减小了checkpoint的存取压力,确保了分布式训练的连续性和高效性;该方法的分布式分片存储机制,不仅提高了存储效率,还便于根据需要快速整合checkpoint数据,从而在实际应用中实现了训练过程的灵活性和可控性,大大提升了模型训练的性能和稳定性。
技术关键词
日志管理器
GPU服务器
存取方法
分发器
存取系统
链表
调度信息传递
物理存储位置
容灾机制
分布式训练
参数
备份
分片策略
指令
均衡策略
周期
系统为您推荐了相关专利信息
通信域
组网
路径规划装置
路径规划方法
网络拓扑
机器视觉监测
低空飞行器
多光谱摄像设备
云台相机
图像增强技术
货物存取机构
货物存取机器人
货物存取系统
支撑件
滑动组件