摘要
基于世界模型隐变量和强化学习的AGV路径规划方法和装置,其方法包括:对车间环境进行建模,生成起始点、目标点、AGV、静态障碍物及动态障碍物,并以栅格地图的方式对其进行像素点表示,将地图表示为图像的形式,获取初始时刻t0至tn的地图信息,作为世界模型学习网络dreamer的输入,生成离散世界模型;建立以结合障碍物分布和时间成本的奖励函数为基础的Actor‑Critic网络,以离散世界模型作为输入,Actor网络预测当前时刻t至后续t+15时刻的AGV动作,Critic网络根据奖励函数对动作进行奖惩;最后使用训练好后的动作网络对AGV进行路径规划。该方法可以减少AGV与环境的交互次数,减少训练的成本与时间,避免在真实环境下训练AGV可能出现的故障。
技术关键词
路径规划方法
变量
动态障碍物
静态障碍物
神经网络参数
栅格地图
AGV路径规划
卷积神经网络学习
车间
图像重建
路径规划装置
更新网络参数
决策
隐性特征
系统为您推荐了相关专利信息
检测障碍物
点云
感兴趣
卡尔曼滤波算法
聚类算法