摘要
本发明提供了一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质,属于机器人自主导航技术领域。该方法通过构建机器人仿真环境,设计基于Actor‑Critic架构的深度强化学习算法,设计包含碰撞、到达目标点、线速度及避障行为奖惩机制的奖励函数,并引入贪婪经验回放机制,利用TD误差对经验数据进行重要性排序,结合贪婪采样与随机采样策略动态调整经验抽取概率,同时通过超参数优化控制训练过程。本发明采用上述的一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质,可提高机器人在动态复杂环境中的导航效率和成功率,适用于工业仓储机器人、无人驾驶车辆、智能服务机器人等多种场景。
技术关键词
强化学习方法
深度强化学习算法
机器人仿真
概率分布函数
传感器数据采集模块
计算机设备
奖惩机制
超参数
智能服务机器人
策略更新
网络
更新方法
仓储机器人
无人驾驶车辆
机器人模型
障碍物
系统为您推荐了相关专利信息
蒙特卡洛算法
曲线
累积分布函数
概率分布函数
激光雷达
机器人自主导航系统
多模态传感器
失效传感器
自主导航模块
环境感知信息