摘要
本发明公开了一种基于隐状态和强化学习的行星际轨道转移方法,涉及航天器控制技术领域。本发明通过建立序列隐变量模型,可以显式地对不确定环境进行表示学习,提取隐藏在不确定环境观测下的隐藏信息。并通过演员网络和评论家网络组成强化学习控制器。采用序列隐变量模型和强化学习控制器构建强化学习算法框架,从而加快智能体在不确定环境中的训练,提高智能体对不确定性的处理能力。此外,本发明实施例还将基于当前观测和预期操作预测下一状态,并将预测的下一状态的质量纳入奖励结构中,使得即时奖励能够同时捕获当前和后续策略的有效性,进而提高算法的学习效率。
技术关键词
学习控制器
隐变量模型
转移方法
轨道
数据
误差
轨迹
航天器控制技术
偏差
序列
拉格朗日
速度
策略
网络
强化学习算法
燃料
损耗
矩阵
系统为您推荐了相关专利信息
控制电路
时钟脉冲
数据处理单元
传输路径
接收主机
语言交互系统
聚酰亚胺基底
磁敏元件
传感模块
三维空间姿态
节点监测方法
物理传感器
表面粘贴式传感器
验证传感器
监测数据传输系统