摘要
本发明涉及计算机科学中组合优化技术领域的一种基于强化学习的云边计算任务调度方法,建立了服务器队列和任务队列,基于云边计算任务调度优化目标建立系统模型,构建基于注意力机制的LSTM网络模型架构,根据不同任务的注意力权重,输出资源分配的概率分布,接着采用改进后的A3C‑IW强化学习算法,使用异步策略梯度方法,得到任务调度决策。定义强化学习每一步的奖励回报函数R,针对不同的奖励回报的任务调度策略,得到最优计算任务调度策略。本发明通过使用强化学习有效平衡了云边系统资源利用率和服务质量,最小化响应时间、能耗,能更好适应云边协同环境下的计算任务调度。
技术关键词
任务调度方法
服务器
任务调度策略
强化学习算法
算法模型
组合优化技术
神经网络模型
系统资源利用率
参数
蒙特卡洛
引入注意力机制
定义
平滑技术
梯度方法
系统为您推荐了相关专利信息
滑动窗口
交换机系统
分布式拒绝服务攻击检测
机器学习模型
动态
涉密载体
监控客户端
RFID检测通道
电子门禁系统
发卡器
物流车辆调度方法
物流车辆调度系统
MapReduce模型
RFID传感器
深度强化学习算法