摘要
本发明涉及人工智能硬件平台中智能集成电路、智能芯片、AI芯片;人工智能通用技术中深度神经网络、多层神经网络、卷积神经网络等领域,尤其涉及一种大语言模型的运算节点、层集群、加速器。本发明大语言模型运算节点包括:至少1个计算单元和第一存储单元,两者位于同一设计架构内,其中:计算单元,用于进行计算;第一存储单元,用于驻留大语言模型运算过程中的静态权重数据;第二存储单元,设置于设计结构的外部,用于存储大语言模型运算过程中KV cache数据。本发明有效避免了传统外存静态权重数据读取所带来的高功耗和高延迟问题,相比于传统的HBM方案,本发明在性能功耗和成本上均具有明显优势。
技术关键词
存储单元
大语言模型
集群
节点
加速器
矩阵
切片
智能集成电路
接口
动态
处理单元
板卡
并行作业
数据存储
深度神经网络
对话系统
智能芯片
硬件平台