摘要
本公开提供一种推理请求的调度方法、装置、电子设备与可读存储介质,涉及大模型、深度学习、云服务等人工智能技术领域。其中,推理请求的调度方法包括:接收多个推理服务分别发送的指标元数据;根据所述指标元数据,得到每个推理服务的负载水平;响应于接收到目标推理服务发送的处理请求,采用与所述目标推理服务的负载水平对应的调度策略,向所述目标推理服务调度推理请求。本公开能够提升推理请求的调度准确性,进而使得多个推理服务的负载更加均衡,有效地降低在得到推理结果时的平均时延。
技术关键词
指标
数据
策略
电子设备
人工智能技术
计算机程序产品
队列
调度装置
处理器通信
指令
可读存储介质
处理单元
存储器
时延