摘要
本发明公开了一种重要性感知的KV缓存管理系统及方法,旨在解决大模型推理过程中由于传统的K、V缓存管理策略效率低下导致的推理时延长,吞吐率低的问题。本发明在K、V缓存的管理策略中引入重要性,通过追踪K、V的重要性,并结合K、V被读取的频率,用重要性分数作为缓存管理的依据,提高了存储中的相对快速介质上的缓存命中率,减少了读取K、V的时间,降低了推理系统的整体时延,提高了吞吐量。本发明适用于有共享前缀的基于重要性的大模型推理任务,能够在维持模型推理精度的同时,缩短输出时延,提升吞吐量约两倍。
技术关键词
缓存管理系统
内存
存储模块
缓存管理策略
缓存管理方法
阶段
缓存命中率
识别模块
推理系统
频率
先进先出
数据
时延
队列
冗余
编码
介质
精度
系统为您推荐了相关专利信息
甲状腺乳头状癌
生物标志物
数据输入界面
标志物联合检测模型
数据分析模块
内存访问控制器
背光驱动芯片
通用控制器
输入输出接口
内存访问请求
结构化存储方法
JSON数据存储
人机交互接口
自然语言
数据库存储技术
病害检测方法
智能算法
桥梁结构损伤
定位缺陷位置
超声导波探头