摘要
本公开的实施例公开了面向超长上下文的键值缓存压缩方法、装置、设备和介质。该方法的一具体实施方式包括:获取样本高维键值向量集合;对样本高维键值向量集合进行离线训练处理,以生成低维键值向量码本;获取大语言模型在推理阶段生成的各个实时键值向量;根据低维键值向量码本,对各个实时键值向量进行量化缓存处理,以生成各个键值索引信息;将所生成的各个键值索引信息写入至量化键值缓存器;在大语言模型的解码过程中,根据量化键值缓存器中写入的各个键值索引信息和大语言模型生成的分词单元,更新量化键值缓存器内的缓存信息。该实施方式可以降低键值量化的算力开销,并提高键值压缩率,从而提高存储空间利用率。
技术关键词
键值
索引
样本
大语言模型
存储空间利用率
序列
离线
分词
处理器
压缩装置
解码
阶段
存储装置
介质
电子设备
程序
聚类
计算机
系统为您推荐了相关专利信息
硬件性能信息
算法模型
终端设备
计算机执行指令
大语言模型
漏洞检测方法
节点特征
程序依赖图
注意力机制
索引
花岗伟晶岩
散射反照率
Hapke模型
波长
反射率