摘要
本发明一种Transformer大模型推理硬件加速器架构及其实现方法,采用基于内存优化MoD架构的Transformer推理加速器Reordered MoD,采用算法‑架构协同设计方法:算法层面,通过分布调整前移和路由决策前移技术实现精度恢复,并借助特征向量重排序降低内存访问成本;架构层面,设计层归一化‑路由融合模块和特征向量重排序以及序列记录模块,在提升计算效率的同时控制内存开销;同时开发动态片上存储系统支持层融合技术,大幅减少外部存储器访问。通过软硬件协同优化,Reordered MoD加速器实现了1.61倍的推理加速,外部存储带宽需求降低53.7%,能耗减少62.5%。本发明设计达到9.40TOPS的吞吐量,1224GOPS/mm2的面积效率,以及23.6TOPS/W的能效表现。
技术关键词
硬件加速器架构
动态存储系统
流水线
存储电路
网络架构
片上存储系统
电路模块
神经网络加速器
协同设计方法
模型计算方法
硬件描述语言
逻辑电路
注意力
输入输出接口
非线性
模式
系统为您推荐了相关专利信息
神经网络模型
时间序列模型
数据随时间
稳定工作模式
计算机设备
内LED照明
系统测试台
飞机客舱
通信连接器
通信芯片
数据降噪方法
曲线
动态时间规整方法
时序特征
上采样
内存
深度学习模型
深度学习框架
硬件设备信息
优化器