摘要
基于Versal ACAP的高效Transformer模型推理加速器部署方法属于软硬件协同加速数值计算领域。首先对模型进行负载分析,同时根据硬件性能,确定各部分硬件需要承担的算子种类及规模;之后再为硬件配备数据发送器、数据接收器、以及非线性算子等模块;然后将这些模块在硬件中合理地部署和连接,完成流水线并行化,实现多头注意力阶段与前馈神经网络阶段的计算;最后将两阶段整合,实现整个编码器/解码器层的加速计算,从而加速上层模型的推理速度。实验证明,本发明有效提高了模型的吞吐量,降低了推理延迟,同时此加速器在批量推理方面具有巨大的优势,在降低模型推理成本以及提升模型推理速度方面具有广阔应用前景。
技术关键词
矩阵
数据接收器
注意力
前馈神经网络
发送器
核心
模块
加速器
阶段
流水线
级联
规模
布局方式
解码器
包交换方式
包头
编码器
矢量处理器