摘要
本说明书公开了一种键值缓存分组量化方法、装置、存储介质及电子设备。采用本说明书提供的键值缓存分组量化方法进行键值缓存数据的量化时,基于通道维度对键向量与值向量数据进行划分,得到若干分组数据;分别确定各分组数据的量化参数,基于此对各分组数据中的元素进行非对称量化;最终,可将量化结果与对应的量化参数分区存储在物理块中。通过本方法可确保模型生成精度的前提下,大幅压缩键值缓存的显存占用,同时提升推理吞吐量。通过动态通道分组量化与隐式反量化融合,为边缘设备端侧部署提供可保障生成精度的键值缓存量化解决方案,缓解大语言模型自回归解码过程中键值缓存显存占用量随序列长度线性增长时显存占用规模过大的技术缺陷。
技术关键词
数据
元素
键值
参数
物理
电子设备
大语言模型
处理器
通道
存储模块
可读存储介质
存储器
精度
分区
解码
规模
计算机
线性
序列