摘要
一种双航天器在轨交互的双优化高效学习训练方法,针对进入指定目标区域的任务,充分考虑任务的时空特性,建立追踪星和目标星的相对轨道动力学以及目标区域数学模型,设计约束条件,建立追踪星和目标星的输赢条件。为了提升训练效率,设计两次优化的高效学习训练方法,首先另追踪星和目标星分别采用基于零控脱靶量的决策方法进行追逃交互,收集和分析双方交互过程的轨迹数据,采用神经网络对追踪星的动作进行拟合,用于指导后续训练;然后,利用强化学习对追踪星的决策网络进行二次训练,本发明能避免从零开始训练导致难以收敛的不足,训练得到的神经网络可以输出追踪星最优推力,实现在指定时刻进入指定区域。
技术关键词
学习训练方法
网络
推力
轨迹
终端
高轨航天器
梯度下降法
运动
轨道
球顶
数学模型
设计约束条件
指标
策略
速度
决策方法
顶点
数据
球体