面向超长上下文的键值缓存压缩方法、装置、设备和介质

正文

推荐专利

申请号：CN202510543952

申请日期：2025-04-28

公开号：CN120449877A

公开日期：2025-08-08

类型：发明专利

摘要

本公开的实施例公开了面向超长上下文的键值缓存压缩方法、装置、设备和介质。该方法的一具体实施方式包括：获取样本高维键值向量集合；对样本高维键值向量集合进行离线训练处理，以生成低维键值向量码本；获取大语言模型在推理阶段生成的各个实时键值向量；根据低维键值向量码本，对各个实时键值向量进行量化缓存处理，以生成各个键值索引信息；将所生成的各个键值索引信息写入至量化键值缓存器；在大语言模型的解码过程中，根据量化键值缓存器中写入的各个键值索引信息和大语言模型生成的分词单元，更新量化键值缓存器内的缓存信息。该实施方式可以降低键值量化的算力开销，并提高键值压缩率，从而提高存储空间利用率。

技术关键词

键值索引样本大语言模型存储空间利用率序列离线分词处理器压缩装置解码阶段存储装置介质电子设备程序聚类计算机

系统为您推荐了相关专利信息

一种基于反应变量监控的漂粉精主反应装置控制方法

哈希表气体分析控制装置热点键值

端侧算法模型的优化方法、设备、介质和程序产品

硬件性能信息算法模型终端设备计算机执行指令大语言模型

基于压缩代码属性图和边类型差异化处理的漏洞检测方法

漏洞检测方法节点特征程序依赖图注意力机制索引

一种流浪动物在线照顾方法及系统

在线识别算法照顾系统错误率画面粒子

一种花岗伟晶岩丰度的反演方法、装置和计算设备

花岗伟晶岩散射反照率 Hapke模型波长反射率

面向超长上下文的键值缓存压缩方法、装置、设备和介质

站点导航

APP 下载