摘要
本发明公开了一种对地观测卫星任务规划的元强化学习调度方法,通过对任务目标的全部可见时间窗口进行目标可见窗口的预报,该方法进行卫星可见窗口预处理,设计动态奖励机制并搭建自适应动态奖励任务马尔可夫决策环境,再搭建基于元学习的强化学习算法,最后加载算法输入测试数据输出成像任务规划策略。通过引入任务动态奖励机制、利用元学习层捕获任务共性,经多轮训练,使智能体在多变环境中能快速适应并高效决策,得到卫星任务规划结果。本发明能够有效地适用于具有动态任务场景的遥感卫星任务规划。
技术关键词
强化学习调度方法
深度强化学习算法
强化学习模型
非暂态计算机可读存储介质
规划
动态
成像
递归神经网络
决策
调度装置
卫星轨道参数
强化学习框架
神经网络单元
动作策略
因子
系统为您推荐了相关专利信息
云台控制方法
巡检无人机
三维地图信息
坐标点
无人机云台
田间数据采集系统
马铃薯专用肥料
分布式存储系统
土壤EC传感器
智能优化算法
路径优化方法
路径规划算法
电缆
指数
路径优化系统
交互系统
多模态
同步控制方法
社交
通信控制单元