摘要
本申请提供了一种用于多GPU集群推理服务的动态资源调度方法和装置,属于计算资源调度领域。包括:获取多GPU集群系统当前时刻和历史时刻的负载水平、请求队列长度和资源利用率,基于当前时刻和历史时刻的负载水平、请求队列长度和资源利用率,利用强化学习模型确定GPU集群的资源分配策略;基于当前时刻和历史时刻的负载水平、请求队列长度和资源利用率,利用时间序列预测模型预测未来的负载状态,基于预测结果调整资源分配策略;在调整资源分配策略之后根据GPU集群实际运行的反馈结果,基于在线学习模型对所述强化学习模型进行更新。本申请通过强化学习优化调度策略,根据系统实际负载和资源利用率等动态调整扩缩容方案。
技术关键词
动态资源调度方法
资源分配策略
强化学习模型
时间序列预测模型
队列
集群系统
优化调度策略
时间序列模型
在线
可读存储介质
预测误差
时间段
处理器
指令
存储器
计算机