摘要
本发明公开一种基于存算一体的大语言模型推理装置、推理系统及电子设备,推理装置包括:至少用于存储的存储层;至少用于计算的计算层,计算层通过混合键合的方式与存储层堆叠设置;计算层包括基于存算一体的神经网络加速器,神经网络加速器包括存内计算矩阵,存内计算矩阵用于将输入特征数据和来自存储层的权重进行神经网络计算;计算层还用于与控制推理装置的主控芯片电连接,计算层还用于进行大语言模型推理的预填充处理且将预填充处理后的数据传输至主控芯片进行大语言模型推理的解码处理,以使得预填充处理和解码处理分离。本发明提供的推理装置支持高带宽,其算力大,功耗低,还能解决现存的LLM推理装置的散热问题。
技术关键词
推理装置
神经网络加速器
大语言模型
逻辑运算单元
推理系统
主控芯片
DRAM存储器
读出电路
存储阵列
SRAM存储器
乘法器
数据
解码
矩阵
电子设备
输入端
信号
高带宽
输出端
功耗
系统为您推荐了相关专利信息
数据检索方法
实体关系抽取
实体间关系
多源异构数据
指令
语言模型优化方法
训练集
矩阵
大语言模型
计算机程序产品
问答方法
大语言模型
注意力机制
文本分割方法
语义