摘要
本发明涉及计算机领域的一种基于深度强化学习的货到人系统多AGV路径规划方法,融合改进A*全局引导与局部强化学习的双层规划架构,全局层采用非均匀惩罚启发式策略,通过Dijkstra算法计算的固定惩罚项和基于历史路径的实时动态惩罚项协同优化路径分散性;局部层设计异步近端策略优化(APPO)算法,结合LSTM网络处理连续5个时间步的多通道观测状态(静态障碍物、AGV位置、全局路径编码),输出5自由度动作策略。针对仓储可移动货架(Pod)区域设置固定惩罚豁免机制,避免无效避让,提高任务成功率和吞吐量,降低计算负载,为解决货到人系统多AGV路径规划问题提供了一种高效且可扩展的解决方案。
技术关键词
路径规划方法
深度强化学习
局部路径规划
Dijkstra算法
静态障碍物
栅格
AGV路径规划
动作策略
动态环境变化
集构造方法
可移动货架
强化学习框架
启发式策略
活动货架
编码器
网络
路径地图
启发式算法
系统为您推荐了相关专利信息
多模态特征
性能测试方法
传感装置
性能测试报告
控制测试设备
抽水蓄能电站
深度强化学习算法
多智能体系统
策略
引入经验回放机制
无人机避障方法
点云信息
局部路径规划
框架
数据
路径规划方法
节点
三维工作空间
工控计算机
末端执行器