摘要
本申请公开了基于无服务计算的计算资源调度方法、装置、设备及介质,涉及云计算技术领域,包括:基于动作空间确定当前时刻的目标动作,确定在当前时刻的状态空间下执行目标动作的分布式回报;确定目标Q值分布,根据目标Q值分布对目标价值网络进行初始优化,以得到初始优化后价值网络;利用通过目标Q值分布的方差确定的策略梯度对应的裁剪边界对目标策略网络进行优化,以获取优化后策略网络;确定裁剪后的目标Q值分布,利用裁剪后的目标Q值分布对初始优化后价值网络进行优化,获取最终优化后价值网络;基于最终优化后价值网络及优化后策略网络确定目标计算资源调度模型,通过目标计算资源调度模型进行计算资源调度。以此确保了资源利用率。
技术关键词
计算资源调度方法
深度强化学习算法
策略
网络结构
因子
集群
中央处理器
节点
参数
可读存储介质
云计算技术
存储计算机程序
动态
调度装置
磁盘
模块
内存