摘要
公开了一种基于深度强化学习的异构容量约束无人机路径规划方法、设备及存储介质。所述方法将路径规划问题建模为马尔可夫决策过程,并采用基于注意力机制的编码器‑双解码器策略网络进行求解。其中,编码器网络用于对所有任务节点信息进行特征提取,以生成包含全局依赖关系的任务节点嵌入;双阶段解码器网络则在每个决策步骤中,先通过无人机选择解码器确定最优执行无人机,再通过节点选择解码器为该无人机选择下一个目标任务节点,以迭代方式生成完整路径方案。本方案能够高效、智能地生成高质量、鲁棒性强的路径规划方案,有效处理异构约束和三维空间问题,并具有良好的泛化能力。
技术关键词
异构无人机
无人机路径规划方法
解码器
深度强化学习
前馈神经网络
决策
三维空间信息
梯度算法
编码器
节点特征
上下文特征
策略
多头注意力机制
阶段
基线