摘要
一种基于宽度强化学习的水下机器人实时路径规划方法,包括:建立水下机器人仿真环境;将水下机器人实时路径规划问题建模为马尔可夫决策过程;构建宽度评价网络和宽度目标网络,并初始化参数;设计先验策略指导水下机器人进行动作的选择;计算上一时刻环境状态下动作作用后的奖励,得到完整经验并存入经验池;基于经验池中的样本,定义损失函数,以共轭梯度法进行宽度网络参数的更新;每隔预定时间更新宽度目标网络,直至完成训练。本发明基于宽度强化学习方法,降低了计算复杂度,设计先验策略指导机器人进行学习,具有训练速度快、计算量小的特点,适用于水下机器人的实时路径规划任务。
技术关键词
水下机器人
障碍物
路径规划方法
网络
仿真环境
矩阵
节点
测距传感器
坐标系
强化学习方法
波束
贪心策略
决策
非线性
定义
速度
系统为您推荐了相关专利信息
协同路径规划方法
人工势场法
DQN算法
多机器人协同
动作策略
缺陷检测方法
缺陷类别
图像采集平台
工业生产环境
检测网络模型
无线通信方法
信道状态信息
智能工厂
射频连接器
优化无线资源