摘要
本公开提供了一种任务调度模型的训练方法、任务调度方法、系统、设备、介质及产品。该训练方法包括:将当前状态和当前动作输入至当前对决网络,得到在当前状态下选择当前动作的动作价值;将下一状态输入至当前对决网络,得到动作价值最大的动作;将下一状态和动作价值最大的动作输入至目标对决网络,得到在下一状态下选择动作价值最大的动作对应的动作价值;基于即时奖励、在当前状态下选择当前动作的动作价值和在下一状态下选择动作价值最大的动作对应的动作价值对当前对决网络的参数进行更新,基于更新后的当前对决网络的参数更新目标对决网络。本公开提高了任务调度的灵活性和资源利用率,降低了异构集群中任务的平均响应时间。
技术关键词
任务调度模型
任务调度方法
场景
节点
异构
量子计算机
集群
序列
网络
电子计算机
贪心算法
计算机程序产品
任务调度系统
可读存储介质
电子设备
处理器通信
参数
系统为您推荐了相关专利信息
交互特征
兴趣点推荐方法
多任务损失函数
递归神经网络
节点
情感交互方法
语义向量
注意力机制
输入解码器
策略
虚拟现实场景
虚拟现实设备
生理监测设备
虚拟现实系统
管理设备
深度强化学习模型
任务分配算法
卸载方法
卸载策略
时延