摘要
本发明公开了一种面向多NPU异构平台的神经网络流水分布式推理加速方法,包括:根据需要进行分布式推理的神经网络模型中各算子的理论计算时间,将神经网络模型划分为多个子模型;根据多个子模型生成第一拆分策略和第二拆分策略;建立NPU执行时延模型,计算第一拆分策略与第二拆分策略在NPU上执行时的负载;根据负载,从第一拆分策略和第二拆分策略中选择更优的一者作为当前拆分策略,并通过迭代对当前拆分策略进行微调;将得到的最优拆分策略中的各子模型分别部署至各NPU,由主控CPU调度以进行输入图像的流水分布式推理。本发明在多NPU之间形成流水线并行架构,使得各NPU在不同时间单位内对不同输入图像进行推理,实现了多NPU核的并行计算。
技术关键词
异构平台
策略
神经网络模型
时延
理论
性能测试工具
图像
通信接口
瓶颈
流水线
数据
系统为您推荐了相关专利信息
预测建模方法
深度迁移学习
非线性
模型预测值
条件生成对抗
信用风险预测方法
集成学习策略
特征选择
数据一致性检查
加速决策树
智能电网调度
传感器模块
开关控制装置
中央控制模块
数据处理模块