摘要
本发明提供一种仓储环境深度强化学习多AGV无冲突路径规划方法,包括:创建虚拟仓储仿真训练环境,并从所述虚拟仓储仿真训练环境中提取虚拟仓储仿真训练环境信息;根据所述虚拟仓储仿真训练环境信息,确定每个AGV的状态观测值编码;设置AGV的动作空间,构建深度强化学习的奖励函数;构建引入动态分组机制的分布式无冲突多AGV路径规划器,根据所述奖励函数和每个AGV的状态观测值编码和动作空间,通过深度强化学习网络对所述分布式无冲突多AGV路径规划器进行迭代训练,更新所述分布式无冲突多AGV路径规划器的网络参数,得到训练后的分布式无冲突多AGV路径规划器;使用所述训练后的分布式无冲突多AGV路径规划器对实际仓储环境中的多个AGV进行无冲突路径规划,得到每个AGV的无冲突路径。
技术关键词
深度强化学习
路径规划器
路径规划方法
货架
特征值
通信网络
障碍物
注意力
矩阵
编码向量
参数
邻域
坐标系
非线性
信息更新
策略
校正
系统为您推荐了相关专利信息
作业路径规划方法
无人挖掘机
对象
坐标系
变换算法
自动分区方法
Delaunay三角剖分
网格
水动力模型
掩膜矩阵
状态评估方法
协方差矩阵
神经网络技术
特征值
神经网络模型构建