摘要
本发明涉及一种基于深度强化学习的煤矿井下机器人路径规划方法,包括:获取待预测状态信息,设计双模态奖励函数,驱动机器人向目标位置移动中避开障碍物;将待预测状态信息输入路径规划模型,获取路径规划结果;路径规划模型利用训练集训练改进后的DDPG双层网络模型获得;改进DDPG双层网络模型包括:在DDPG双层网络模型的Actor网络模块前添加LSTM层,用于充分利用环境信息,Actor网络模块隐藏层中的全连接层采用ReLU激活函数,以及在Actor网络模块的最后一层引入Sigmoid激活函数,确保输出值均为非负值,并将DDPG双层网络模型中Critic网络模块的最后一全连接层替换成改进后的决斗网络。
技术关键词
深度强化学习
网络模块
煤矿井下
采样池
静态障碍物
训练集
避开动态障碍物
双模态
表达式
规划
引导机器人
样本
数据
因子
编码
系统为您推荐了相关专利信息
机器人导航方法
导航机器人
数据机房
拓扑地图
深度强化学习模型
动态分配系统
能耗监控
分布式模型预测控制
分层遗传算法
能源
深度强化学习算法
训练场景
道岔
训练神经网络
智能优化方法
动态调度方法
协同决策机制
深度强化学习算法
动态障碍物
停车场车位状态