摘要
本发明提供了一种面向多星轨道交互的机动策略分层训练方法,涉及航天器控制,其中方法包括:根据预设的CW坐标系建立三星的轨道追逃交互模型;根据轨道追逃交互模型确定追踪星和逃逸星交互时的第一交互数据和第一奖励函数,以及追踪星和防御星交互时的第二交互数据和第二奖励函数并对预设的初始神经网络进行训练,依次得到追踪星的第一追踪网络模型和逃逸星的第一逃逸网络模型,以及追踪星的第二逃逸网络模型和防御星的第二追踪网络模型;根据轨道追逃交互模型、第一逃逸网络模型和第二追踪网络模型确定三星交互时第三交互数据和第三奖励函数,并对追踪星的初始决策网络进行训练,得到机动策略选择模型。本方案实现了追踪星在追踪和逃逸行为之间的智能切换。
技术关键词
交互模型
航天器
策略
轨道
神经网络权值
坐标系
决策
梯度下降法
速度
数据
神经网络训练
算法
分层
运动
训练装置
推力器
计算机
模式
系统为您推荐了相关专利信息
拉格朗日
强化学习模型
梯度下降法
驾驶控制策略
传输效能
麋鹿
离心机控制系统
数学模型
PID控制器参数
家庭
评判方法
清洗机器人
光伏板
光伏阵列清洗
毛刷组件