摘要
本发明设计了一套基于领导者‑跟随者的动态编队模型。该模型由跟随引力和防撞斥力组成,用于构建定制化奖励函数,以辅助调整跟随者无人机的队形。在多无人机系统基础上设计了一套动态编队奖励方案,针对领导者和跟随者设计了两套奖励函数,有效提高了领航者和跟随者达到协作编队水平。在多智能体双延迟深度确定性策略梯度方法(MATD3)的基础上,提出了一种结合领航者跟随者模型的多智能体双延迟深度确定性策略梯度方法(Leader‑Follower MATD3,LFMATD3)。采用基于双延迟深度确定性策略梯度方法(TD3)训练单无人机航迹规划的能力,并扩展到多无人机系统的方法,有效提高了无人机的行为决策能力。本方法确保多无人机系统实现任务的实时动态分配的同时,获得了更强的航迹规划能力,仿真实验证明了该方法的有效性和鲁棒性。
技术关键词
深度确定性策略梯度方法
无人机航迹规划
多无人机系统
网络
障碍物
无人机协同
激光雷达
引导无人机
动态
参数
决策
控制无人机
鲁棒性
样本
算法
直线