摘要
本发明提出一种基于数据流架构加速器的注意力机制融合方法和装置,包括用于在GPDPU加速器上加速Attention计算的方法,该方法根据Attention中embedding的维度和输入序列长度的乘积来选择融合方案,对于维度较小的计算,通过预先传入转置数据的方式将所有操作融合在同一个核函数中,从而减少配置指令的时间和访存开销,对于维度较大的计算,将输入数据分块传入暂存数据缓存SPM的存储器中用于计算,将Attention的计算步骤融合为两个复用程度很高的核函数减少指令信息的配置时间。
技术关键词
矩阵
数据流架构
加速器
注意力机制
序列
融合方法
融合装置
信息显示设备
分块
处理单元
人工智能模型
模块
计算机程序产品
电子设备
存储器
可读存储介质
处理器
芯片