摘要
本发明的一种基于深度强化学习的无人清扫机器人运动规划方法及设备,该方法通过设定清扫机器人的观察空间与动作空间,其中观察空间包括来自激光雷达系统的传感器输入,用于提取静态和动态障碍物以及垃圾的特征。在仿真环境中构建了用于训练和评估的框架,采用TD3(双延迟深度确定性策略梯度)深度强化学习网络,使机器人能够学习最优的行为策略。该学习过程使得机器人能够在复杂环境中自主导航,避开静态和动态障碍物,并有效到达目标点进行清扫任务。该方法保证了机器人的决策过程高效、适应性强,从而提升了其在复杂环境中执行清扫操作的能力。
技术关键词
清扫机器人
深度强化学习
运动规划方法
动态障碍物
静态障碍物
仿真环境
激光雷达数据
特征提取网络
深度确定性策略梯度
网络协同工作
垃圾
策略更新
误差函数
空间特征提取
激光雷达系统
数据特征提取
运动学特征