摘要
本发明提供了一种面向大语言模型的多芯粒存算一体计算装置,具有这样的特征,包括一个IO芯粒和多个PIM芯粒,其中,IO芯粒包括:嵌入模块用于生成嵌入向量并添加位置编码;IO侧数据通信模块对待计算向量进行裁切并分配至各个PIM芯粒,并接收各个PIM芯粒发送的局部计算反馈向量;同步模块,用于将各个局部计算反馈向量进行同步以及执行残差相加和层归一化计算;token存储器,PIM芯粒包括:PIM侧数据通信模块;全局存储器;多个PIM‑bank模块存储有大语言模型的网络权重,用于根据局部计算向量执行向量‑矩阵乘法生成对应的局部计算反馈向量;softmax模块。总之,本方法能够提高大语言模型的推理速度。
技术关键词
数据通信模块
大语言模型
全局存储器
多芯
注意力
矩阵
网络
查找表
同步单元
编码
流水线
阶段
解码
坐标
速度
系统为您推荐了相关专利信息
自然语言推理
ASR系统
意图分类方法
文本
时间序列模型
监控方法
节点特征
多维度特征提取
在线学习机制
注意力机制
石墨
多模态图像数据
通道注意力机制
特征融合技术
特征提取网络
视频片段定位方法
文本
对齐模块
跨模态
多头注意力机制
调制识别方法
遗传算法
动态权重分配
生成多尺度
神经网络模型训练