摘要
本发明公开了一种集群作业调度方法及系统,将用户提交的计算作业建模为有向无环图DAG,从而将实时调度问题转化为资源与DAG之间的分配问题。本发明包含常态调度和特殊态调度两种调度模式,分别用来实现效率目标和公平目标。其中,常态调度模式基于图神经网络,从局部到整体收集作业信息,并将这些信息输入给强化学习模型,给出最小化平均作业完成时间的调度决策;特殊态调度模式根据作业执行时间的统计规律实时检测长尾作业,并针对长尾作业进行特殊优化,为其优先分配资源以降低长尾作业完成时间。调度系统在所述两种调度模式之间转换,达到效率与公平之间的权衡。
技术关键词
集群作业调度方法
节点
集群作业调度系统
强化学习模型
作业执行时间
模式
资源分配
决策
模块
非线性
阶段
梯度算法
采取行动
策略
代表
参数
编码