摘要
本发明公开了一种基于双层回溯机制的主从卫星任务分配方法,根据获取的主从卫星任务规划需求以及约束条件,构建以最大化主从卫星执行任务所产生的效能为目标函数的主从卫星协同任务规划模型;基于马尔可夫决策过程MDP进行任务规划转化,定义状态空间、动作空间和奖励函数;利用深度强化学习DQN算法求解主从卫星协同任务规划模型,通过双层回溯机制进行任务规划优化;基于求解后的主从卫星协同任务规划模型,获得主从卫星的任务分配策略。设计双层回溯机制,通过全局回溯与局部回溯相结合的方式,在任务规划过程中动态调整高代价、低收益的规划决策,避免资源浪费和任务冲突,提高任务分配的合理性与鲁棒性。
技术关键词
任务分配方法
规划
DQN算法
任务分配策略
深度强化学习
机制
回放模块
决策
处理器
效能
样本
动态更新
计算机设备
开关机
定义
周期
可读存储介质
时间差
系统为您推荐了相关专利信息
深度强化学习模型
综合能源系统
低温余热发电设备
负荷
DQN算法
三维模型
强化学习模型
深度强化学习算法
深度Q学习
可视化工具