摘要
本发明公开了一种面向异构GPU集群的深度神经网络模型并行推理方法,涉及分布式机器学习领域,包括获取当前信息,剩余可选择的DNN模型、每个GPU服务器上已部署的DNN模型及未满足DNN模型数量约束的GPU服务器;调度器选择DNN模型部署在选定的GPU服务器上,并计算此时执行并行推理的吞吐量;直至找到吞吐量最大的DNN模型和GPU服务器组合,并更新相关信息;判断该GPU上已部署的DNN模型是否满足数量约束,并更新GPU集群信息,直到所有GPU满足特定的DNN模型数量约束;重复上述步骤直至算法收敛。本发明充分利用有限的异构GPU资源,选择相容性高的DNN模型进行部署执行并行推理,以最大化吞吐量。
技术关键词
DNN模型
GPU服务器
推理方法
服务器组合
集群
异构
贪婪策略
分布式机器学习
调度器
最大化吞吐量
算法
异质
网络
决策
资源