摘要
本发明公开了一种基于强化学习的无人机路径规划避障方法,包括如下步骤:S1、定义无人机的环境模型;S2、采用改进的MADDPG算法,为每架无人机构建基于强化学习的多无人机系统,在Actor和Critic网络中引入长短期记忆网络;S3、采用集中式训练优化多无人机的协作路径规划与避障决策;S4、基于自适应任务分配机制,动态调整任务分配和飞行路径;S5、采用经验回放机制和目标网络;S6、通过Actor网络生成飞行路径,并做出实时决策。本发明通过改进的MADDPG算法,利用LSTM结构优化多无人机协作、路径规划与避障决策,广泛应用于搜索与救援、无人机群体协作领域。
技术关键词
长短期记忆网络
决策
多无人机
障碍物
机制
规划
无人机群体
感知周围环境
无人机协同
参数
生成无人机
梯度下降算法
动态
无人机系统
梯度下降法
噪声模型