摘要
本申请涉及集群调度技术领域,提供了面向大模型训练与推理的GPU异构集群调度方法及系统,通过整合硬件特征、运行状态和历史任务数据等多源信息,运用聚类算法、模糊综合评价法和强化学习等技术,构建了一套完整的集群调度系统,实现了对GPU集群资源的全面、智能且动态的管理与调度,该集群调度系统能够显著提升GPU异构集群在大模型训练与推理任务中的执行效率,提高资源利用率,降低能耗,增强系统的稳定性和适应性,为大规模深度学习应用提供了高效和可靠的解决方案。
技术关键词
集群调度系统
资源预留
分片
节点
集群调度方法
模糊综合评价法
聚类算法
强化学习模型
GPU异构集群
集群调度技术
生成资源
逻辑
滑动窗口算法
画像
模拟退火算法
深度Q网络