摘要
本申请涉及并行计算技术领域,具体涉及一种基于GPU的大规模并行计算优化方法,该方法包括:实时获取当前时刻每个排队模型任务所需的最小GPU资源量,以及每个GPU设备中各执行模型任务的负载量、批次大小和核函数数量;实时获取每个GPU设备在各时刻的运行功率、工作频率和可用资源量;计算综合评价得分;确定每个GPU设备在当前时刻的连锁争抢权重、并行争抢强度、降频性能浪费度、并行计算高效性、资源分配优先度,对GPU设备进行资源分配。本申请可降低GPU资源碎片化造成的资源争抢和降频问题,能够均衡GPU设备的负载,提高大规模GPU集群并行计算的效率。
技术关键词
并行计算优化方法
资源分配
排队模型
多准则决策
序列
功率
并行计算技术
高需求
阈值分割算法
强度
频率
集群
指数