摘要
本发明公开了一种基于多近端强化学习的星群轨道追逃决策方法,包括:S1:采用8阶龙格‑库塔法更新卫星状态;S2:卫星群中各卫星收集彼此状态信息,构建状态向量,据此形成策略与价值网络;通过策略网络选择并执行动作,接收环境奖励后更新状态向量;然后计算时序差分误差与优势函数,利用近端策略优化算法更新网络;同时,采用联邦近端算法融合各卫星的策略网络;S3:对卫星群进行综合性能评估,动态调整各卫星策略网络参数的更新策略,持续优化卫星群的整体效能。本发明确保了卫星群在复杂环境中能高效协作,通过不断学习与调整,提升了整体响应速度与决策准确性,确保了任务执行的高效与稳定。
技术关键词
网络
决策方法
卫星动力学
参数
轨道
速度
综合性
数值积分方法
算法
定义
因子
整体效能
卫星群
时序
方程
动态
燃料
控制策略
阶段
系统为您推荐了相关专利信息
机械臂坐标系
定位系统
人脸特征点
影像
定位模块
局部放电监测系统
传感采集模块
断路器
环境参数传感器
高频电流传感器