摘要
本发明实施例公开了一种神经网络运算的加速方法及装置;方法适用于基于decoder的大模型网络,包括:获取矩阵乘阵列的第一输出结果;所述第一输出结果包括多个矩阵乘结果;从多个所述矩阵乘结果中获取第二输出结果;其中,所述第二输出结果为所述矩阵乘结果每一行的最大值;将所述第一输出结果和第二输出结果进行softmax后续计算,输出目标计算结果。与现有技术相比,本发明通过在矩阵乘阵列的非线性计算单元中增加最大值计算单元,将原本在softmax计算中的最大值计算提前到矩阵乘计算阵列中的非线性计算单元中。相较于现有解决方案,减少了随后softmax计算中一次数据加载的开销,并且没有改变原始算法的精度。
技术关键词
加速装置
矩阵
阵列
输入设备
存储计算机程序
非线性
存储器
网络
处理器
加速器
指令
算法
精度
数据
系统为您推荐了相关专利信息
金具
三维成像
缺陷识别方法
声学传感器阵列
频域特征
序列
麦克风阵列
大型基建项目
选址分析方法
风噪声
协方差矩阵
应变片传感器
负载传感器
温度补偿系数
测量方法