摘要
本发明公开了Transformer高吞吐推理的流水线调度方法,涉及到人工智能技术领域,包括如下步骤:步骤一、X‑Y堆叠流水线并行策略:将整个网络模型按Transformer块切成分段,每个分段按设定规则依次映射到芯片节点阵列,每个分段在芯片节点阵列上以流水线并行方式执行以构成流水级,流水级内部以张量并行的方式执行;步骤二、利用X‑Y堆叠流水线并行策略构建基于动态规划的划分映射算法,基于划分映射算法得到给定网络和芯片节点阵列下的最高吞吐流水线并行划分和映射方案;该流水线调度方法实现了Transformer模型的高吞吐推理。
技术关键词
流水线调度方法
映射算法
阵列
计算机可读储存介质
分段
并行策略
分类程序
节点
芯片
规划
人工智能技术
处理器
网络
动态
计算机设备
方程
存储器