摘要
本申请公开基于多线程异步深度强化学习的移动机器人自主避障方法,具体包括:在PPO算法基础上加入多任务异步并行机制,构建MAPPO,将不同避障任务场景分离并同时训练;基于nokov‑lidar多传感器感知信息,构建机器人环境状态观测空间;基于全局网格世界导航地图,设计离散化动作空间,并为状态更新设置运动学约束;设计导航奖励函数,引导移动机器人在复杂环境中做出最佳避障决策;基于多层感知机构建过早碰撞预测模块,推断来自可感知环境的碰撞信息,并联合MAPPO学习训练出最优避障策略。本发明可实现充分的移动机器人‑环境交互,提高机器人动作决策模型的探索能力,保证其在向目标移动过程的实时避障。
技术关键词
深度强化学习
移动机器人
多线程
传感器感知信息
状态更新
多层感知机
策略
多任务
决策
梯度下降算法
速度
估计算法
模块
多标签
机制
激光雷达