基于奖励函数改进的深度强化学习路径规划方法及系统

正文

推荐专利

申请号：CN202410892079

申请日期：2024-07-04

公开号：CN118760168B

公开日期：2025-01-21

类型：发明专利

摘要

本发明提出了一种基于奖励函数改进的深度强化学习路径规划方法及系统，涉及路径规划技术领域，所述方法包括构建深度强化学习训练环境模型；采集设置于深度强化学习训练环境模型中自主移动机器人的可行状态信息和位置状态信息；构建与深度确定性策略梯度算法和策略学习算法对应的状态空间模型，并使状态空间模型输出状态空间函数和动作空间函数；获取自主移动机器人所有可选状态动作对应的奖励函数；将状态空间函数、动作空间函数及奖励函数存入经验池，并从经验池中选取样本，以更新深度确定性策略梯度算法和策略学习算法；重复上述步骤，直到自主移动机器人移动至目标点，以完成路径规划。本发明有助于提升路径规划的收敛速度和数据探索效率。

技术关键词

自主移动机器人深度强化学习位置状态信息学习算法状态空间模型障碍物路径规划方法策略路径规划系统表达式数据采集模块雷达坐标系路径规划技术端点网络接口

系统为您推荐了相关专利信息

一种基于大模型的智能预警多方电话会议系统

电话会议系统语音识别模块存储通话记录服务质量报告服务质量分析

一种电力系统储能控制方法及装置

电网运行数据充放电策略电力系统储能控制负荷预测模型储能层

一种基于视觉技术的钟表零配件质量检测装置

钟表视觉检测单元安装箱图像捕捉模块安装基座

储能部署系统、储能系统部署方法及电子设备

储能系统智能分析模块模板典型可执行程序代码

一种麻醉面罩管内压力电动调节系统

麻醉面罩调节系统混合整数规划模型压力改进型蚁群算法

基于奖励函数改进的深度强化学习路径规划方法及系统

站点导航

APP 下载