摘要
本申请旨在提供一种大语言模型数据管理方法、装置、电子设备及存储介质,涉及神经网络领域。大语言模型数据管理方法包括:在所述注意力层进行非首轮推理的情况下,将目标矩阵输出至所述注意力层,以使所述注意力层基于所述目标矩阵计算前一轮推理生成的键向量和值向量;其中:所述目标矩阵存储在所述存储单元内,所述目标矩阵包括初始向量和N个累加向量;在所述注意力层基于所述键向量和所述值向量完成当前轮次的推理后,基于所述累加向量对所述存储单元内的目标矩阵进行累加。通过上述方式,可以减少大语言模型不断推理过程中存储器所需缓存的数据量。
技术关键词
数据管理方法
大语言模型
注意力
存储单元
执行矩阵乘法
存储器
数据压缩
电子设备
处理器
切片
可读存储介质
计算机
文本
内存