摘要
本申请提供了异构硬件集群分布式训练方法、装置、电子设备及介质,属于计算机技术领域。该方法包括:基于待训练模型和异构硬件,确定异构并行训练策略;基于异构并行训练策略以及异构硬件,构建用于执行待训练模型的模型训练任务的进程网格;不同进程网格与异构硬件中的不同硬件类型具有映射关系;进程网格被调用后在具有映射关系的硬件类型对应的异构硬件上执行;基于异构并行训练策略以及映射关系,构建进程网格之间的异构通信组;调用进程网格执行所述待训练模型的模型训练任务。本申请的技术方案可以实现任意多款硬件集群混合,实现异构集群的高效扩展,可以基于待训练模型和异构硬件确定优选的异构并行训练策略,提供更加灵活的并行策略。
技术关键词
异构
分布式训练方法
进程
网格
数据并行策略
集群
子模块
芯片
关系
流水线
标识
电子设备
可读存储介质
逻辑
物理
系统为您推荐了相关专利信息
GBDT模型
样本
交叉验证法
交叉验证方法
KNN算法
正交频分复用
信息传输方法
生成发送信号
语义特征
网格
干衣机
动态控制方法
动态控制系统
加热控制组件
异构传感器