摘要
本申请公开了一种模型推理的调度方法、装置、系统、介质、产品及设备,该方法包括:接收来自于推理请求端的第一调度请求消息,第一调度请求消息用于指示至少一个地域及其各自的推理请求数量;基于第一调度请求消息,从待调度服务端中确定出第一目标服务端;返回第一调度响应消息给推理请求端,第一调度响应消息携带第一目标服务端的第一信息,从而使得调度端能够因应推理请求端针对所需完成的推理任务的关于不同地域及其推理请求数量的需求来选出合适的第一目标服务端以供推理请求端完成推理任务,也可以实现推理请求端只需发送一次第一调度请求消息即可完成针对一个或多个地域的推理任务的地域批量调度以降低地域批量调度场景下的调度延迟。
技术关键词
调度请求消息
服务端
调度请求信息
调度装置
KV数据库
负载均衡算法
消息接收模块
机房信息
处理器
批量
参数
计算机程序产品
调度系统
计算机设备
可读存储介质
存储器
系统为您推荐了相关专利信息
资源状态信息
软件定义网络
资源调度方法
SDN控制器
集群