摘要
本披露公开了一种任务调度方法以及相关产品。本披露所公开的任务调度方法包括:获取当前迭代中,基于强化学习模型进行任务调度的强化学习调度轮次所获得的至少一个第一奖励;获取当前迭代中,基于预设算法进行任务调度的预设算法调度轮次所获得的至少一个第二奖励;根据所述至少一个第一奖励和所述至少一个第二奖励,得到当前迭代中多个强化学习调度轮次的累积奖励;根据所述累积奖励更新所述强化学习模型,以在下一迭代中使用更新后的强化学习模型进行任务调度。该方法根据强化学习调度算法和预设算法所获得的累积奖励来更新强化学习模型,从而使得强化学习模型能够感知不同算法带来的环境波动,提高强化学习模型的收敛性。
技术关键词
强化学习模型
队列
任务调度策略
任务调度方法
生成特征向量
调度算法
平均等待时间
处理器
指令
程序
资源
存储器
计算机
介质