摘要
本发明公开了基于深度强化学习的中继卫星军民融合多目标调度方法,具体包括如下步骤:步骤1,收集用户任务集与中继卫星资源集的数据;步骤2,根据步骤1收集的数据遵循中继卫星调度原则建立数学模型;步骤3,通过马尔可夫决策过程来实现步骤2中建立的数学模型被调度的过程;步骤4,通过深度强化学习对步骤3中的决策过程进行优化,实现中继卫星军民融合多目标调度。本发明解决了调度中心在民用与军事等重大项目调度冲突、用户申请执行不及时及中继卫星资源利用率低的问题。
技术关键词
深度强化学习
链路
数学模型
记忆
决策
网络结构
参数
数据
方程
资源
网路
周期
军事
策略
理论
误差