一种面向异构GPU集群的深度神经网络模型并行推理方法

正文

推荐专利

申请号：CN202510786813

申请日期：2025-06-13

公开号：CN120297426B

公开日期：2025-08-26

类型：发明专利

摘要

本发明公开了一种面向异构GPU集群的深度神经网络模型并行推理方法，涉及分布式机器学习领域，包括获取当前信息，剩余可选择的DNN模型、每个GPU服务器上已部署的DNN模型及未满足DNN模型数量约束的GPU服务器；调度器选择DNN模型部署在选定的GPU服务器上，并计算此时执行并行推理的吞吐量；直至找到吞吐量最大的DNN模型和GPU服务器组合，并更新相关信息；判断该GPU上已部署的DNN模型是否满足数量约束，并更新GPU集群信息，直到所有GPU满足特定的DNN模型数量约束；重复上述步骤直至算法收敛。本发明充分利用有限的异构GPU资源，选择相容性高的DNN模型进行部署执行并行推理，以最大化吞吐量。

技术关键词

DNN模型 GPU服务器推理方法服务器组合集群异构贪婪策略分布式机器学习调度器最大化吞吐量算法异质网络决策资源

一种面向异构GPU集群的深度神经网络模型并行推理方法

站点导航

APP 下载