一种模型并行训练方法及装置

正文

推荐专利

一种模型并行训练方法及装置

申请号：CN202410845072

申请日期：2024-06-27

公开号：CN118410859B

公开日期：2024-10-01

类型：发明专利

摘要

本发明提供一种模型并行训练方法及装置，该方法包括：根据分布式异构集群中计算节点之间形成的聚类集合确定每个流水并行单元的主节点；流水并行单元是基于流水并行方式划分的计算单元，每个流水并行单元对应训练神经网络模型中的至少一个网络层；根据流水并行单元的主节点和通讯距离对流水并行单元的计算节点集合进行扩展，确定计算节点集合；在计算节点集合的内存总量大于或等于流水并行单元训练至少一个网络层所需的目标内存量的情况下，基于所述计算节点集合训练神经网络模型。本发明提供的方法，能够基于不同硬件设备的分布式异构集群上的大规模神经网络模型的分布式并行训练效率。

技术关键词

流水主节点并行训练方法分布式存储方式聚类训练神经网络模型内存并行策略异构集群通讯选举方法总量阶段非暂态计算机可读存储介质处理器扩展单元计算机程序产品

系统为您推荐了相关专利信息

一种特种设备能效优化方法及系统

特种设备变频驱动器能效优化方法能效优化控制制动电动机

点云数据预处理方法、装置、设备及存储介质

点云数据预处理矩阵距离图像坐标智能驾驶技术

基于用户充电行为画像的电动汽车可调度潜力概率评估方法和系统

概率评估方法可调度潜力标签体系画像多面体

一种基于计算机视觉的滑雪板自动养护控制系统

养护控制系统执行器手眼标定深度相机机械臂坐标系

一种机械车位的车位方向检测方法、装置、设备及介质

单目相机检测车图像聚类算法机械

一种模型并行训练方法及装置

站点导航

APP 下载