模型分布式训练调度方法、系统、计算机设备及存储介质

正文

推荐专利

申请号：CN202411708398

申请日期：2024-11-26

公开号：CN119806763A

公开日期：2025-04-11

类型：发明专利

摘要

本发明涉及模型训练技术领域，公开了一种模型分布式训练调度方法、系统、计算机设备及存储介质，该方法包括：构建待调度网络拓扑结构，其中，待调度网络拓扑结构为将模型网络拓扑进行结构转换后获得；确定模型训练并行策略；根据待调度网络拓扑结构以及模型训练并行策略生成调度规划；基于调度规划启动计算节点并给每个计算节点注入环境变量；根据环境变量将模型训练任务进行拆分，并将拆分后的模型子训练任务分配至对应的计算节点上。本发明根据待调度网络拓扑结构以及模型训练并行策略生成调度规划，再根据调度规划对计算节点进行调度以及模型并行训练任务分配，这样可以让并行训练的节点尽量减少跨层通信，从而使并行训练的效率达到最高。

技术关键词

网络拓扑结构并行策略分布式训练恢复故障规划流水线计算机设备模型训练技术可读存储介质调度系统存储器处理器指令模块节点数数据强度

系统为您推荐了相关专利信息

一种智能机器人的分工协作方法及系统

智能机器人虚拟仿真环境图谱能耗规划

基于多源数据融合的水工建筑物巡检机器人自适应导航方法

巡检机器人水工建筑物三维点云数据导航方法水文

一种基于深度强化学习的船舶路径规划方法

船舶路径规划方法动态障碍物人工势场斥力势场样条

一种基于能量回馈与光伏储能的充电桩测试系统及方法

储能模块充电桩测试系统电源接口模块能量回馈模块光伏组件

消化内镜及其自主导航系统

消化内镜驱动结构模式微型激光雷达力觉传感器

模型分布式训练调度方法、系统、计算机设备及存储介质

站点导航

APP 下载