模型分布式训练调度方法、系统、计算机设备及存储介质

AITNT
正文
推荐专利
模型分布式训练调度方法、系统、计算机设备及存储介质
申请号:CN202411708398
申请日期:2024-11-26
公开号:CN119806763A
公开日期:2025-04-11
类型:发明专利
摘要
本发明涉及模型训练技术领域,公开了一种模型分布式训练调度方法、系统、计算机设备及存储介质,该方法包括:构建待调度网络拓扑结构,其中,待调度网络拓扑结构为将模型网络拓扑进行结构转换后获得;确定模型训练并行策略;根据待调度网络拓扑结构以及模型训练并行策略生成调度规划;基于调度规划启动计算节点并给每个计算节点注入环境变量;根据环境变量将模型训练任务进行拆分,并将拆分后的模型子训练任务分配至对应的计算节点上。本发明根据待调度网络拓扑结构以及模型训练并行策略生成调度规划,再根据调度规划对计算节点进行调度以及模型并行训练任务分配,这样可以让并行训练的节点尽量减少跨层通信,从而使并行训练的效率达到最高。
技术关键词
网络拓扑结构 并行策略 分布式训练 恢复故障 规划 流水线 计算机设备 模型训练技术 可读存储介质 调度系统 存储器 处理器 指令 模块 节点数 数据 强度
系统为您推荐了相关专利信息
1
一种智能机器人的分工协作方法及系统
智能机器人 虚拟仿真环境 图谱 能耗 规划
2
基于多源数据融合的水工建筑物巡检机器人自适应导航方法
巡检机器人 水工建筑物 三维点云数据 导航方法 水文
3
一种基于深度强化学习的船舶路径规划方法
船舶路径规划方法 动态障碍物 人工势场 斥力势场 样条
4
一种基于能量回馈与光伏储能的充电桩测试系统及方法
储能模块 充电桩测试系统 电源接口模块 能量回馈模块 光伏组件
5
消化内镜及其自主导航系统
消化内镜 驱动结构 模式 微型激光雷达 力觉传感器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号