摘要
本发明涉及一种未知环境下基于深度强化学习的连续空间路径规划方法,属于路径规划技术领域,包括获取移动机器人的目标方向、目标距离、移动速度及障碍物距离,根据障碍物距离生成一障碍物特征向量,定义一状态向量;构建一包括策略网络、目标策略网络的路径规划模型;初始化一隐藏特征向量并将其与移动机器人的状态向量输入策略网络得到更新后的隐藏特征向量和动作向量;移动机器人根据动作向量执行相应动作,通过定义状态向量并结合策略网络,实现了机器人在未知环境中的动态路径规划,通过隐藏特征向量传递时序信息,使机器人能够结合状态向量生成动作向量,从而提升决策的连续性和适应性,能够更高效地调整路径,提高避障成功率和导航效率。
技术关键词
空间路径规划方法
移动机器人
深度强化学习
障碍物
网络
策略
动态路径规划
路径规划技术
激光雷达
梯度下降算法
两轮差速
生成动作
驱动轮
速度
定义
连续性
参数
时序
系统为您推荐了相关专利信息
跟踪器
电子传感器
行人姿态估计
自动驾驶系统
卡尔曼滤波器
判断系统
客户关系管理
客户流失风险
社交媒体平台
数据采集模块
复合载氧体
优化设计方法
机器学习算法
氧空位
密度泛函理论
模拟模型
红树植物胸径
植物种子
动态
元胞自动机