摘要
本公开涉及一种KV缓存的管理方法、调度器、介质、设备及产品,所述方法包括:若监测到主节点在执行推理任务的过程中,存在满足迁移条件的推理序列,则从N个从节点中确定目标从节点;分别向各个主节点下发迁移指令,迁移指令用于指示主节点将第一KV缓存发送至目标从节点,第一KV缓存为主节点生成的第二数量个连续的token对应的KV缓存;向目标从节点下发接收指令,接收指令用于指示目标从节点接收并存储各个主节点分别发送的第一KV缓存。通过上述技术方案,采用主节点和从节点异构的配置方式,可以降低推理系统的总成本,将主节点生成的KV缓存迁移至从节点中,避免主节点在进行长序列推理时KV缓存的爆炸问题。
技术关键词
主节点
存储单元
推理系统
调度器
指令
并行策略
管理方法
序列
计算机程序产品
流水线
调度算法
处理器
可读存储介质
存储器
电子设备
模块
异构
内存
系统为您推荐了相关专利信息
图像处理方法
磁共振图像处理
扩散加权成像
人体组织器官
序列
数据存储管理方法
标识符
校验算法
数据存储管理设备
数据存储管理装置
联邦学习方法
节点
零知识证明
联邦学习模型
联邦学习系统
诊断系统
诊断方法
长短期记忆网络
数据处理模块
数据管理模块