摘要
本公开关于一种基于异构GPU集群的模型训练方法、装置及存储介质,所述方法包括:获取异构GPU集群中每个GPU的硬件指标数据;获取待训练模型中深度学习算法对应的多个操作类型,并测量每个GPU执行每个操作类型对应操作的操作性能数据;获取每个GPU的通信带宽多维特征以及负载状态感知策略;根据每个GPU对应的所述硬件指标数据、所述操作性能数据、所述通信带宽多维特征以及所述负载状态感知策略,构建得到每个GPU的多维操作性能矩阵;根据每个GPU对应的多维操作性能矩阵,为所述待训练模型中每个结构层分配GPU进行模型训练得到目标模型,本公开提高了模型的训练效率,缩短了模型的训练时长。
技术关键词
并行流水线
阶段
策略
通信带宽
模型训练方法
深度学习算法
异构
样本
集群
时延
数据获取模块
矩阵
多层感知机
模型训练装置
注意力机制
无线带宽技术
模型训练模块
电子设备处理器
系统为您推荐了相关专利信息
流量分类方法
融合策略
融合特征
时序依赖关系
神经网络单元
业务订单数据
决策树模型
决策树算法
CRM系统
错误率
通用数据模型
异构防火墙策略
规则集
应急响应时间
条目
极限学习机
网络安全数据
分类器模型
网络安全态势评估
量子态