摘要
本发明涉及一种基于强化学习的未知动态环境移动机器人路径规划方法,属于路径规划技术领域。该方法采用两层强化学习结构,底层模块学习全局路径规划,前期提供椭圆专精策略及GliEF‑Dyna‑Q算法;高层模块学习避障规则完成局部动态避障;GliEF‑Dyna‑Q算法是引入椭圆几何知识设计椭圆知识专精策略来缩小采样范围,并通过全局和局部两种视角来约束优化奖励机制和路径搜索,并将改进的SA‑ε贪心策略融入进Dyna‑Q,以实现高效的全局路径规划;高层模块提供全新的避障行为奖励机制和更适配的值函数更新方法,以进行全面的局部避障活动。本发明能让机器人在动态环境下更高效地实现避障和完成最优路径行驶。
技术关键词
贪心策略
障碍物
机器人
Q算法
视角
全局路径规划方法
终点
动态避障方法
长轴
路径规划技术
焦点
模块
更新方法
系统为您推荐了相关专利信息
经导管瓣膜
手术机器人系统
传动组件
器械
隔离机构
虚拟对象
无人驾驶车辆
策略
动态
障碍物位置信息
语音识别引擎
深度学习算法
注意力机制算法
损失函数优化
对话机器人