摘要
本发明公开了一种模型推理服务部署方法、装置、设备及存储介质。该方法包括,在模型推理过程中,获取计算资源集群中所有模型推理服务的推理指标参数。针对每个所述模型推理服务,根据所述模型推理服务对应的推理指标参数和预先构建的各个模式确定阈值,确定所述模型推理服务对应的目标调度模式,其中,所述目标调度模式包括服务质量优先模式和资源利用率优先模式。基于所述目标调度模式中的服务部署策略,确定所述模型推理服务对应的服务部署方式,并基于所述服务部署方式,将所述模型推理服务进行服务部署,以根据需要动态调整调度策略,确保模型推理服务能够满足预定的性能要求,同时提升存量GPU资源的利用率。
技术关键词
计算资源集群
服务部署方法
最大化资源利用率
模式
指标
参数
策略
可读存储介质
贪心算法
计算机
电子设备
处理器通信
时间片
存储器
周期
模块
指令
动态
系统为您推荐了相关专利信息
航迹预测方法
时空注意力机制
聚类
数据分布特征
多尺度特征融合
深度学习识别方法
LED植物补光灯
多任务深度学习模型
参数优化模型
深度Q网络
医疗耗材
识别方法
单类支持向量机
大数据
时间序列分析方法