摘要
本发明公开了一种基于强化学习的异构动态调度策略,包括以下步骤:首先将调度问题建模为马尔可夫决策过程,定义状态、动作、转移函数与回报函数,利用图卷积网络提取任务图结构特征并构建状态表示;通过策略网络输出动作概率分布,结合优势函数和熵正则化进行策略优化,同时使用价值网络估计状态价值并通过最小化贝尔曼误差进行训练;系统交互中,智能体根据状态选择任务调度动作并不断优化策略,最终实现最小化任务完工时间的目标。本发明能够在运行时根据系统状态做出分配和调度决策,显著提高了调度效率和适应性。
技术关键词
策略
表达式
任务调度
网络优化
网络结构设计
异构
节点特征
算法
随机梯度下降
动态
矩阵
邻居
定义
资源
决策
计算机系统
状态更新
参数
系统为您推荐了相关专利信息
数据挖掘方法
港口设备
去噪设备
设备状态数据
设备运行状态信息
监测方法
动态响应模型
植入式生物传感器
交互特征
信号
问答模型训练方法
生成对抗网络
答案
知识点
评估系统
光储充系统
储能设备
负荷
充放电策略
智能调度方法