一种用于大模型的分布式checkpoint存取方法

AITNT
正文
推荐专利
一种用于大模型的分布式checkpoint存取方法
申请号:CN202510279986
申请日期:2025-03-11
公开号:CN120216098A
公开日期:2025-06-27
类型:发明专利
摘要
本发明属于人工智能领域,公开一种用于大模型的分布式checkpoint存取方法,构建分布式checkpoint存取系统,完成checkpoint存储、提取和异常处理,本发明通过checkpoint分片存储与索引调用的方式,避免checkpoint的整存整取,可以显著提升大模型训练效率;通过引入LogMgr、Log hisMgr等模块,减小了checkpoint的存取压力,确保了分布式训练的连续性和高效性;该方法的分布式分片存储机制,不仅提高了存储效率,还便于根据需要快速整合checkpoint数据,从而在实际应用中实现了训练过程的灵活性和可控性,大大提升了模型训练的性能和稳定性。
技术关键词
日志管理器 GPU服务器 存取方法 分发器 存取系统 链表 调度信息传递 物理存储位置 容灾机制 分布式训练 参数 备份 分片策略 指令 均衡策略 周期
系统为您推荐了相关专利信息
1
一种路径规划方法、装置及相关设备
通信域 组网 路径规划装置 路径规划方法 网络拓扑
2
一种基于低空飞行器的违章建筑机器视觉监测方法
机器视觉监测 低空飞行器 多光谱摄像设备 云台相机 图像增强技术
3
工程模型数据存取方法及装置
数据存取方法 分片 编辑 数据同步 客户端
4
货物存取机构、货物存取机器人、系统、方法、装置以及介质
货物存取机构 货物存取机器人 货物存取系统 支撑件 滑动组件
5
基于真实负载的GPU调度方法、系统、设备及存储介质
PCIE设备 GPU服务器 容器 调度器 节点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号