摘要
本发明公开了一种稀疏片上训练硬件加速器架构及其实现方法,该加速器架构包括:片外DRAM、片上存储系统、计算控制器FSM Ctrl、前向传播和反向误差传播计算单元阵列FP/EPPE、权重梯度生成计算单元阵列WG PE、批归一化层计算模块ACBN、稀疏矩阵数据压缩模块flag‑CSR以及激活与池化计算模块;该方法包括:利用奇异值分解SVD对深度卷积神经网络DCNN模型中的权值矩阵进行低秩分解,并采用2n量化和保留高位宽精度相结合的混合精度数据量化方案,并设计前向传播和反向误差传播计算单元阵列FP/EP PE以及权重梯度生成计算单元阵列WG PE硬件逻辑电路,最后设计外围控制与存储电路并组合得到稀疏片上训练硬件加速器。本发明能够有效减少系统的硬件耗费,改善能量效率。
技术关键词
硬件加速器架构
片上存储系统
DCNN模型
阵列
数据压缩
硬件描述语言设计
矩阵
深度卷积神经网络
模块
误差
计数器
逻辑电路
训练深度神经网络
先进先出存储器
神经网络加速器
系统为您推荐了相关专利信息
应力检测方法
计算机生成全息图
三维全息显示
应力检测系统
光电检测模块
高效传输方法
机房数据
指数平滑预测
压缩算法
信息熵
推理决策方法
DNN模型
记忆
计算机可读指令
移动设备
电子倾角传感器
支撑组件
石英
阵列式压力传感器
垂直度检测方法