摘要
本申请公开了一种基于多级缓存的模型调度方法、装置、设备及介质,涉及人工智能领域,包括:在模型部署的过程中,基于获取的模型访问请求对预设缓存架构中对应的待推理模型的当前模型热度进行更新;其中,预设缓存架构由上至下的缓存层分别为显存缓存层、进程内存缓存层、共享内存缓存层以及持久化缓存层;确定待推理模型在预设缓存架构中的目标缓存层,并当目标缓存层为显存缓存层时,触发对待推理模型的预设推理操作;当目标缓存层为非显存缓存层时,基于位于目标缓存层之上的其他缓存层中的各当前模型热度将待推理模型调度至显存缓存层,以在显存缓存层触发对待推理模型的预设推理操作。因此,本申请能够实现模型资源的高效利用和智能管理。
技术关键词
模型调度方法
内存
进程
数据
调度装置
时间段
深度学习框架
指数
字节流
机制
可读存储介质
模块
因子
处理器
周期
电子设备
存储器
计算机
资源
系统为您推荐了相关专利信息
深度融合网络
刀具磨损预测方法
预测网络模型
时序卷积神经网络
数据
商品信息匹配
信息处理模块
电商销售平台
信息采集单元
库存管理
洗脸巾
传感采集模块
数据处理单元
闭环反馈控制
气味特征
数据智能采集方法
节点
异构信息系统
大语言模型
注意力