基于芯粒和近存计算的边缘端大语言模型推理加速方法

正文

推荐专利

申请号：CN202411551388

申请日期：2024-11-01

公开号：CN119476487A

公开日期：2025-02-18

类型：发明专利

摘要

本发明提出一种基于芯粒和近存计算的边缘端大语言模型推理加速方法和装置，包括模型权重储存在Flash，整个推理过程包含的全部矩阵向量乘法的运算由Flash和NPU协同完成。在Flash中计算的部分：需要NPU把输入向量发送到Flash中，使用Flash内部存储的权重矩阵和该输入向量做矩阵向量乘法，得到结果后发送回NPU。在NPU中计算的部分：NPU中存储着输入向量，需要从Flash中逐块读取权重矩阵，并在NPU中完成运算。运算结果保存在NPU中。注意力运算由NPU独立完成。特殊函数计算由NPU独立完成。NPU与Flash各自承担的任务比例，使得二者能更好地协同完成大语言模型的推理任务。

技术关键词

矩阵向量乘法神经网络模型闪存存储阵列纠错模块纠错码注意力加速装置信息显示设备数据通道人工智能模型备份加速器大语言模型计算机程序产品电子设备页面可读存储介质

基于芯粒和近存计算的边缘端大语言模型推理加速方法

站点导航

APP 下载