摘要
本发明公开了一种基于IPPO算法的航天器追逐控制方法,建立基于深度强化学习的航天器控制模型,将控制航天器追逐目标问题描述为马尔科夫决策过程;根据IPPO算法,搭建多航天器逐层优化策略网络,从单航天器神经网络开始训练,基于训练好的单航天器设计相关的目标智能体;再进行博弈提升航天器与目标的神经网络的性能,最后基于IPPO算法的进行多航天器与目标的逐层优化训练,利用训练好的策略网络实现多航天器追逐目标控制。通过神经网络智能控制克服了传统控制计算复杂、难以追逐具有自主运动能力的目标等不足,通过逐层优化训练,提高了算法的收敛速度,克服了航天器运动时状态空间过大的问题导致的训练效率不高的问题。
技术关键词
航天器
神经网络模型
深度强化学习
神经网络智能控制
算法
决策
策略
脉冲
状态更新
终端
燃料
坐标系
数值
矩阵
表达式
参数
比率
轨道
速度