模型推理优化方法、装置、设备、存储介质和程序产品

正文

推荐专利

申请号：CN202411708873

申请日期：2024-11-26

公开号：CN119201476B

公开日期：2025-03-28

类型：发明专利

摘要

本公开提供了一种模型推理优化方法、优化装置、设备、存储介质和程序产品，涉及大语言模型技术领域。其中，模型推理优化方法包括：响应于接收到的模型推理的推理请求，由全局调度器基于配置的全局提示树的本地感知策略确定第一执行实例，第一执行实例能够重用推理请求的上下文缓存；将模型推理的预填充任务调度至第一执行实例，以基于第一执行实例执行预填充操作得到包括上下文缓存的键值缓存；将模型推理的解码任务调度至第二执行实例，以基于第二执行实例对包括上下文缓存的键值缓存进行解码，得到推理结果；由全局调度器将推理结果反馈至请求端。通过本公开的技术方案，能够提高任务分配的合理性，使推理流程更加高效。

技术关键词

全局调度器任务调度键值解码标识节点策略传输接口优化装置资源云端处理器内存索引大语言模型计算机程序产品关系数据中心框架可读存储介质

模型推理优化方法、装置、设备、存储介质和程序产品

站点导航

APP 下载