摘要
本公开提供了一种模型推理优化方法、优化装置、设备、存储介质和程序产品,涉及大语言模型技术领域。其中,模型推理优化方法包括:响应于接收到的模型推理的推理请求,由全局调度器基于配置的全局提示树的本地感知策略确定第一执行实例,第一执行实例能够重用推理请求的上下文缓存;将模型推理的预填充任务调度至第一执行实例,以基于第一执行实例执行预填充操作得到包括上下文缓存的键值缓存;将模型推理的解码任务调度至第二执行实例,以基于第二执行实例对包括上下文缓存的键值缓存进行解码,得到推理结果;由全局调度器将推理结果反馈至请求端。通过本公开的技术方案,能够提高任务分配的合理性,使推理流程更加高效。
技术关键词
全局调度器
任务调度
键值
解码
标识
节点
策略
传输接口
优化装置
资源
云端
处理器
内存
索引
大语言模型
计算机程序产品
关系
数据中心
框架
可读存储介质