摘要
本发明公开一种多尺度视觉Transformer加速器架构、边缘芯片及设备,其中加速器架构,包括:指令队列和指令调度器,用于接收CPU的指令,并分发给IMC阵列或DMA引擎;统一缓存区,用于存储卷积的输入特征和输出特征,以及MHA的Query矩阵及输出矩阵;IMC阵列,用于存储卷积的权重或MHA的Key、Value矩阵,以及执行卷积与MHA计算;DMA引擎,用于加速器内部存储及与加速器片外DRAM之间的数据传输;前处理模块,用于读取卷积的输入特征或MHA的Query矩阵,将数据对齐后送往IMC阵列;后处理模块,用于收集IMC阵列的输出结果,及执行相应的激活函数及量化操作。本发明能够根据不同的层尺寸动态调整并行度以提高空间利用率。
技术关键词
加速器
指令调度器
后处理模块
矩阵
阵列
模式
多尺度
输出特征
流水线
执行除法
视觉
芯片
网络
队列
内存
处理单元
注意力
数据
重构