一种模型推理服务部署方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510188154

申请日期：2025-02-20

公开号：CN120104328A

公开日期：2025-06-06

类型：发明专利

摘要

本发明公开了一种模型推理服务部署方法、装置、设备及存储介质。该方法包括，在模型推理过程中，获取计算资源集群中所有模型推理服务的推理指标参数。针对每个所述模型推理服务，根据所述模型推理服务对应的推理指标参数和预先构建的各个模式确定阈值，确定所述模型推理服务对应的目标调度模式，其中，所述目标调度模式包括服务质量优先模式和资源利用率优先模式。基于所述目标调度模式中的服务部署策略，确定所述模型推理服务对应的服务部署方式，并基于所述服务部署方式，将所述模型推理服务进行服务部署，以根据需要动态调整调度策略，确保模型推理服务能够满足预定的性能要求，同时提升存量GPU资源的利用率。

技术关键词

计算资源集群服务部署方法最大化资源利用率模式指标参数策略可读存储介质贪心算法计算机电子设备处理器通信时间片存储器周期模块指令动态

航迹预测方法时空注意力机制聚类数据分布特征多尺度特征融合

一种鱼类产卵行为智能预测方法

智能预测方法产卵混沌系统模型因子数据

基于植物灯的植物生长状态深度学习识别方法及系统

深度学习识别方法 LED植物补光灯多任务深度学习模型参数优化模型深度Q网络

一种远程监控氢气液化的控制系统

氢气液化液氢控制系统报告动态权重分配

基于大数据的医疗耗材违规使用识别方法

医疗耗材识别方法单类支持向量机大数据时间序列分析方法

一种模型推理服务部署方法、装置、设备及存储介质

站点导航

APP 下载