摘要
本公开提供了一种大语言模型运算装置、大语言模型加速装置及大语言模型运算方法,该大语言模型运算装置包括多个第一计算单元以及至少一个第二计算单元,各个第一计算单元能够独立同步执行大语言模型的目标网络层的部分运算,无需采用图形处理器完成大语言模型所需的大规模运算,实现了利用成本较低的各个计算单元替代昂贵的图形处理器完成大语言模型的解码计算,有效降低大语言模型的解码成本和计算压力,并且每个第一计算单元存储的矩阵数据的数据量相同,这样各个第一计算单元基于存储的矩阵数据进行运算时的运算速度相似,使得第二计算单元无需耗费较长时间特别等待某个第一计算单元的反馈,从而有助于减少延迟,提升大语言模型整体运行效率。
技术关键词
大语言模型
运算装置
通信接口
存储单元
矩阵
加速装置
数据广播
阶段
图形处理器
整体运行效率
注意力
芯片
数据存储
解码
算法
板卡
级联
压力
系统为您推荐了相关专利信息
同步电机
角速度控制方法
鲁棒控制
预测机械
估计误差
算法模型
运维管理平台
集群
数据采集模块
楼宇机电设备
对话状态跟踪方法
深度学习网络模型
编码器
主题
聚类