摘要
本发明提出了一种基于奖励函数改进的深度强化学习路径规划方法及系统,涉及路径规划技术领域,所述方法包括构建深度强化学习训练环境模型;采集设置于深度强化学习训练环境模型中自主移动机器人的可行状态信息和位置状态信息;构建与深度确定性策略梯度算法和策略学习算法对应的状态空间模型,并使状态空间模型输出状态空间函数和动作空间函数;获取自主移动机器人所有可选状态动作对应的奖励函数;将状态空间函数、动作空间函数及奖励函数存入经验池,并从经验池中选取样本,以更新深度确定性策略梯度算法和策略学习算法;重复上述步骤,直到自主移动机器人移动至目标点,以完成路径规划。本发明有助于提升路径规划的收敛速度和数据探索效率。
技术关键词
自主移动机器人
深度强化学习
位置状态信息
学习算法
状态空间模型
障碍物
路径规划方法
策略
路径规划系统
表达式
数据采集模块
雷达
坐标系
路径规划技术
端点
网络接口
系统为您推荐了相关专利信息
电话会议系统
语音识别模块
存储通话记录
服务质量报告
服务质量分析
电网运行数据
充放电策略
电力系统储能控制
负荷预测模型
储能层
钟表
视觉检测单元
安装箱
图像捕捉模块
安装基座
储能系统
智能分析模块
模板
典型
可执行程序代码
麻醉面罩
调节系统
混合整数规划模型
压力
改进型蚁群算法