面向超长上下文的键值缓存压缩方法、装置、设备和介质

AITNT
正文
推荐专利
面向超长上下文的键值缓存压缩方法、装置、设备和介质
申请号:CN202510543952
申请日期:2025-04-28
公开号:CN120449877A
公开日期:2025-08-08
类型:发明专利
摘要
本公开的实施例公开了面向超长上下文的键值缓存压缩方法、装置、设备和介质。该方法的一具体实施方式包括:获取样本高维键值向量集合;对样本高维键值向量集合进行离线训练处理,以生成低维键值向量码本;获取大语言模型在推理阶段生成的各个实时键值向量;根据低维键值向量码本,对各个实时键值向量进行量化缓存处理,以生成各个键值索引信息;将所生成的各个键值索引信息写入至量化键值缓存器;在大语言模型的解码过程中,根据量化键值缓存器中写入的各个键值索引信息和大语言模型生成的分词单元,更新量化键值缓存器内的缓存信息。该实施方式可以降低键值量化的算力开销,并提高键值压缩率,从而提高存储空间利用率。
技术关键词
键值 索引 样本 大语言模型 存储空间利用率 序列 离线 分词 处理器 压缩装置 解码 阶段 存储装置 介质 电子设备 程序 聚类 计算机
系统为您推荐了相关专利信息
1
一种基于反应变量监控的漂粉精主反应装置控制方法
哈希表 气体 分析控制装置 热点 键值
2
端侧算法模型的优化方法、设备、介质和程序产品
硬件性能信息 算法模型 终端设备 计算机执行指令 大语言模型
3
基于压缩代码属性图和边类型差异化处理的漏洞检测方法
漏洞检测方法 节点特征 程序依赖图 注意力机制 索引
4
一种流浪动物在线照顾方法及系统
在线识别算法 照顾系统 错误率 画面 粒子
5
一种花岗伟晶岩丰度的反演方法、装置和计算设备
花岗伟晶岩 散射反照率 Hapke模型 波长 反射率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号