摘要
本申请涉及一种基于PPO算法多无人机协同避障控制方法、装置和设备,所述方法包括:构建智能体,在每架无人机上部署一个智能体,智能体包括策略网络和价值网络;采用链式PPO训练框架对编队中的无人机进行多轮训练,得到每架无人机的路径规划和避障任务的最优策略;编队中的每架无人机执行各自的路径规划和避障任务的最优策略,实现多无人机协同避障控制。在训练过程中除了当前训练中的无人机,其他无人机保持固定策略,有效保持训练环境的稳定性;链式训练框架,利用无人机各自局部观测状态预估动作量,在有启发式信息和奖励函数的指导下,能够在避障的前提下保持一定的编队稳定性到达目标点,提高了快速到达目的地的效果。
技术关键词
避障控制方法
多无人机协同
训练无人机
启发式信息
策略
网络
规划
分布式训练
避障控制装置
算法
状态更新
速度
无人机避障
人工势场法
框架
静态障碍物
穿梭运动
动态障碍物
系统为您推荐了相关专利信息
性能预测模型
学习器
参数优化方法
分布式缓存集群
加权平均策略
内存管理单元
自检方法
验证方法
数据生成算法
策略
混合整数线性规划
资源调度模型
网络拓扑特征
粒子群算法
分布式数据采集