基于芯粒和近存计算的边缘端大语言模型推理加速方法

AITNT
正文
推荐专利
基于芯粒和近存计算的边缘端大语言模型推理加速方法
申请号:CN202411551388
申请日期:2024-11-01
公开号:CN119476487A
公开日期:2025-02-18
类型:发明专利
摘要
本发明提出一种基于芯粒和近存计算的边缘端大语言模型推理加速方法和装置,包括模型权重储存在Flash,整个推理过程包含的全部矩阵向量乘法的运算由Flash和NPU协同完成。在Flash中计算的部分:需要NPU把输入向量发送到Flash中,使用Flash内部存储的权重矩阵和该输入向量做矩阵向量乘法,得到结果后发送回NPU。在NPU中计算的部分:NPU中存储着输入向量,需要从Flash中逐块读取权重矩阵,并在NPU中完成运算。运算结果保存在NPU中。注意力运算由NPU独立完成。特殊函数计算由NPU独立完成。NPU与Flash各自承担的任务比例,使得二者能更好地协同完成大语言模型的推理任务。
技术关键词
矩阵向量乘法 神经网络模型 闪存存储阵列 纠错模块 纠错码 注意力 加速装置 信息显示设备 数据 通道 人工智能模型 备份 加速器 大语言模型 计算机程序产品 电子设备 页面 可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号