一种用于多GPU集群推理服务的动态资源调度方法和装置

正文

推荐专利

申请号：CN202411855493

申请日期：2024-12-17

公开号：CN119311396A

公开日期：2025-01-14

类型：发明专利

摘要

本申请提供了一种用于多GPU集群推理服务的动态资源调度方法和装置，属于计算资源调度领域。包括：获取多GPU集群系统当前时刻和历史时刻的负载水平、请求队列长度和资源利用率，基于当前时刻和历史时刻的负载水平、请求队列长度和资源利用率，利用强化学习模型确定GPU集群的资源分配策略；基于当前时刻和历史时刻的负载水平、请求队列长度和资源利用率，利用时间序列预测模型预测未来的负载状态，基于预测结果调整资源分配策略；在调整资源分配策略之后根据GPU集群实际运行的反馈结果，基于在线学习模型对所述强化学习模型进行更新。本申请通过强化学习优化调度策略，根据系统实际负载和资源利用率等动态调整扩缩容方案。

技术关键词

动态资源调度方法资源分配策略强化学习模型时间序列预测模型队列集群系统优化调度策略时间序列模型在线可读存储介质预测误差时间段处理器指令存储器计算机

一种用于多GPU集群推理服务的动态资源调度方法和装置

站点导航

APP 下载