摘要
一种基于课程深度强化学习的多机器人路径规划方法,利用课程学习的思想,设计课程学习的各个阶段,通过改变各阶段机器人数量,以及地图大小和障碍物数量,实现任务的由易到难;搭建强化学习环境,定义环境中机器人的观察空间、动作空间以及环境的奖励函数,制定机器人在环境中的运行规则;设计一种网络结构以适应环境中变化的机器人数量,运用Qatten算法训练网络模型,本发明能解决连续空间中的多机器人路径规划问题,其优势在于能够相对传统算法更快更好的实现路径规划,提高路径规划的效率。
技术关键词
深度强化学习
机器人路径规划
终点
强化学习算法
超网络结构
障碍物
多头注意力机制
阶段
连续动作空间
强化学习环境
训练机器人
DQN算法
人工势场法