摘要
本发明公开了一种通用可配置Transformer神经网络的硬件加速器及其实现方法,包括控制单元、计算单元和DMA单元,控制单元监测计算单元和DMA单元的状态,并决定是否发送指令;计算单元从固定sRAM位置读取数据,并输出到下一步计算的固定位置,当检测到计算命令队列已空,将输出计算结果到与DMA单元共享的sRAM存储位置;DMA单元与计算单元通过sRAM交互,将计算数据放入加载目标地址堆制动位置,并将sRAM存储位置共享数据根据存储地址队列存回指定位置。本发明通过设置核心运算和次级运算的方式,实现高输入数据复用率,减少了访存需求;通过指令流填充配置表的方式,减少大量指令的取指译码时间,提高了整体执行效率。
技术关键词
硬件加速器
队列
控制单元
矩阵乘法器
前馈神经网络
核心
指令流
数据
标志寄存器
注意力
调度器
计算器
先进先出
命令
信号
存储器
控制器
表单
系统为您推荐了相关专利信息
GPU服务器
管理设备
节点
管理方法
机器可读指令
非暂态计算机可读存储介质
医疗业务系统
生成专题
医疗大数据处理
主题
DMA控制器
数据传输系统
接收端
FPGA芯片
接口模块