摘要
本公开涉及用于基于变换器的多头注意力的神经网络架构。一种神经网络架构包括被配置为对变换器模型执行多头注意力的多个存储器内处理(PIM)装置。多个PIM装置中的每一个包括:多个存储体,其被配置为存储用作多头注意力的输入数据的键向量和值向量;以及多个处理单元,其对应于多个存储体,被配置为使用键向量和值向量,经由变换器模型来执行多头注意力。多个存储体被配置为以第一方式存储键向量,以不同于第一方式的第二方式存储值向量。
技术关键词
神经网络架构
存储体
矩阵向量乘法
序列
注意力
缓冲器
元素
处理单元
变换器
神经网络结构
分段
数据
存储器