摘要
本公开提供了一种模型推理请求的调度方法及装置、设备和介质,涉及人工智能技术领域,尤其涉及大模型和分布式模型服务技术领域。实现方案为:基于待调度的模型推理请求,确定待编码的至少一个第一数据项;基于第一数据索引和至少一个第一数据项确定每个模型实例对应的缓存命中率,第一数据索引包括:第二数据项是基于多个模型实例各自缓存的多个历史数据项执行去重处理确定的多个第二数据项;以及每个第二数据项对应的数据标识,每个第二数据项对应的数据标识包括多个子标识,每个子标识指示该子标识对应的模型实例是否缓存该第二数据项;基于每个模型实例对应的缓存命中率确定目标模型实例;以及将模型推理请求调度到目标模型实例上执行推理。
技术关键词
数据项
缓存命中率
索引
标识
分布式模型
备份
编码
人工智能技术
指令
模块
计算机程序产品
调度装置
处理器通信
结点
字符
可读存储介质
文本
系统为您推荐了相关专利信息
协同控制方法
无人机
生成控制指令
范畴
可视化界面
鲸鱼优化算法
作业调度方法
工件
多策略
作业车间
保护方法
三维离散余弦变换
视角
系数提取方法
身份
发动机点火信号
台车
行程
DBSCAN聚类算法
平均行驶里程