摘要
本发明提供一种基于安全强化学习的高速飞行器集群协同方法及系统,属于飞行器集群协同领域。为解决现有强化学习算法应用于高速飞行器集群协同任务中不可解释性导致的安全性问题。本发明将安全强化学习理论引入飞行器集群智能决策问题,基于李雅普诺夫稳定性理论提出了改进软演员‑评论家算法,建立以法向过载为控制量的动力学模型,将任务划分为目标打击、编队保持和威胁区规避,设计飞行器引导奖励函数,通过与演员‑评论家算法对比,得出该方法能够使智能体在整个训练过程中保持较低的安全成本的结论。本发明可实现部分安全性可解释的高速飞行器集群协同智能策略的获得,从而有效地避免因奖励函数设计不当引起威胁区规避任务失败的情况。
技术关键词
高速飞行器
协同方法
网络
强化学习理论
策略
人工势场法
强化学习算法
集群智能
速度
因子
可读存储介质
偏差
协同系统
训练场景
生成动作
测试场景