摘要
本发明公开了一种基于延迟自适应探索的机器人运动规划方法及系统,该机器人运动规划方法通过构建策略网络和价值网络,基于移动机器人与环境的交互获取在不同训练轮次中不同时刻的环境信息、加噪动作和奖励;以移动机器人每一时刻的环境信息、加噪动作和奖励以及下一时刻的环境信息作为一个经验样本,构建经验池;加噪动作根据在策略网络获取的基础动作中添加由累积奖励矫正的噪声获取。使用经验池中的经验样本对策略网络和价值网络进行更新训练;重复构建经验池和训练网络的过程,直至达到终止条件,得到训练后的策略网络;将不同时刻下移动机器人获取的环境信息输入训练后的策略网络,得到移动机器人执行的动作,完成机器人运动规划。
技术关键词
网络
移动机器人执行
策略
机器人运动规划
运动规划系统
矫正
分支
动作特征
噪声
基础
滑动窗口
供电模块
电机驱动板
样本
延迟参数
工控机
系统为您推荐了相关专利信息
卷积神经网络模型
样本
深度学习模型
建筑
可读存储介质
草坪修剪机器人
环境感知方法
嵌入式视觉
实例分割模型
嵌入式芯片