摘要
本发明提供了一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质,属于机器人自主导航技术领域。该方法通过构建机器人仿真环境,设计基于Actor‑Critic架构的深度强化学习算法,设计包含碰撞、到达目标点、线速度及避障行为奖惩机制的奖励函数,并引入贪婪经验回放机制,利用TD误差对经验数据进行重要性排序,结合贪婪采样与随机采样策略动态调整经验抽取概率,同时通过超参数优化控制训练过程。本发明采用上述的一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质,可提高机器人在动态复杂环境中的导航效率和成功率,适用于工业仓储机器人、无人驾驶车辆、智能服务机器人等多种场景。
技术关键词
强化学习方法
深度强化学习算法
机器人仿真
概率分布函数
传感器数据采集模块
计算机设备
奖惩机制
超参数
智能服务机器人
策略更新
网络
更新方法
仓储机器人
无人驾驶车辆
机器人模型
障碍物
系统为您推荐了相关专利信息
个性化习题推荐方法
学生
策略
概念
强化学习方法
面向海量监控数据
深度强化学习模型
数据迁移路径
深度强化学习算法
边缘计算中心
电网仿真
识别方法
样本
电网量测信息
深度强化学习算法
纺织定型机
节能控制系统
深度学习优化
能量存储模块
电化学存储设备