摘要
本发明提供了一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质,属于机器人自主导航技术领域。该方法通过构建机器人仿真环境,设计基于Actor‑Critic架构的深度强化学习算法,设计包含碰撞、到达目标点、线速度及避障行为奖惩机制的奖励函数,并引入贪婪经验回放机制,利用TD误差对经验数据进行重要性排序,结合贪婪采样与随机采样策略动态调整经验抽取概率,同时通过超参数优化控制训练过程。本发明采用上述的一种目标驱动导航的经验回放增强的强化学习方法、计算机设备及介质,可提高机器人在动态复杂环境中的导航效率和成功率,适用于工业仓储机器人、无人驾驶车辆、智能服务机器人等多种场景。
技术关键词
强化学习方法
深度强化学习算法
机器人仿真
概率分布函数
传感器数据采集模块
计算机设备
奖惩机制
超参数
智能服务机器人
策略更新
网络
更新方法
仓储机器人
无人驾驶车辆
机器人模型
障碍物
系统为您推荐了相关专利信息
温室大棚
对象
深度强化学习算法
时间段
管理方法
状态优化方法
面向动态环境
深度强化学习算法
网络优化
状态更新
智能温控
温度监测模块
远程通信模块
电伴热系统
控制模块
多元时序数据
深度强化学习
分类方法
序列
特征提取网络