摘要
本申请提供了基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质,涉及计算机技术领域。其中,基于多级缓存机制的大模型推理方法包括:接收原始请求;基于各个实例的键值缓存分布和负载情况,确定原始请求对应的预填充实例和解码实例;通过预填充实例,基于三级缓存机制确定原始请求多个键值缓存块;基于键值缓存块,执行预填充阶段的计算,得到预填充阶段的首个输出标记;通过解码实例,基于预填充阶段的首个输出标记和键值缓存块进行解码阶段的计算,得到原始请求对应的完整输出标记;基于完整输出标记,确定原始请求的推理结果。由此,能够大幅提高了前缀缓存的命中率,有效缓解了负载不均衡的问题。
技术关键词
键值
多级缓存机制
序列
解码
缓冲块
标记
内存
推理方法
阶段
显卡
时延
生成哈希值
编码
异步方式
标识
磁盘
调度器
集群
电子设备
系统为您推荐了相关专利信息
可见光图像
图像预处理技术
动态时间规整算法
时间序列特征
图谱
防爆电梯控制柜
预测控制方法
降温装置
混合神经网络模型
循环装置
评估辅助方法
流媒体服务器
注意力神经网络
人体关键点
视频序列特征提取