摘要
本发明实施例涉及一种机器人避障神经网络模型训练方法、设备及存储介质。该方法包括:在预设的机器人避障仿真环境下,将机器人基于预设的随机弹性奖励机制和强化学习神经网络,在避障过程中产生的动作决策、反馈的运行状态以及相应的奖励记录,并形成随机奖励池;利用所述随机奖励池,并通过添加强化学习动作的随机噪声,共同训练所述强化学习神经网络,更新网络参数;在实际运行环境中,基于所述随机弹性奖励机制根据获得的机器人在避障过程中产生的动作决策值和反馈的运行状态值,训练所述强化学习神经网络,得到机器人的避障神经网络模型。本发明实施例的技术方案能够有效提高强化学习避障效率和实用性。
技术关键词
机器人避障
仿真环境
更新网络参数
神经网络模型
顶点
速度
计算机可执行指令
机制
随机噪声
决策
全局路径规划
神经网络参数
数学模型
动作噪声
地图
轨迹
系统为您推荐了相关专利信息
冲洗控制方法
神经网络模型
模糊逻辑
喷头
管道堵塞
时间敏感网络
Dijkstra算法
交换机
贪婪策略
链路