摘要
本申请一个或多个实施例提供一种推理系统的负载感知调度方法和推理系统,该方法应用于包括全局调度器和推理引擎的推理系统;推理引擎包括Prefill引擎和Decode引擎;Prefill引擎和Decode引擎分别包括至少一个计算实例;计算实例的计算资源包括所在的计算节点上搭载的GPU;该方法包括:全局调度器获取待执行的目标推理请求,以及基于所维护的GPU负载信息,确定GPU负载满足第一预设条件的Prefill引擎中的第一计算实例,并将目标推理请求发送至第一计算实例执行Prefill阶段的推理计算;Prefill引擎中与第一计算实例对应的第一本地调度器基于所维护的GPU负载信息,确定GPU负载满足第二预设条件的Decode引擎中的第二计算实例,并将Prefill阶段的推理计算结果发送至第二计算实例执行Decode阶段的推理计算。
技术关键词
推理系统
全局调度器
多处理器
动态更新
阶段
资源
内存
信息更新
时钟
指令
节点
可读存储介质
频率
计算机
指标
令牌
周期
电子设备
系统为您推荐了相关专利信息
物品储存
高投入产出比
容器内物品
共识算法
数据
知识图谱构建方法
实体识别模型
时序
传感器节点
文本
缺陷检测方法
自动化测试设备
网络模型结构
分支
缺陷类别