摘要
本发明公开了基于深度强化学习的自动导引车系统路径优化方法,用于解决动态环境下多AGV路径规划的适应性差、样本效率低及训练稳定性不足的问题,通过改进的SARD‑PPO算法,结合样本自适应重用与双重裁剪机制,提升样本利用效率与策略更新稳定性;利用LSTM捕捉时间序列依赖关系,增强动态环境适应性;设计包含AGV位置、目标点、障碍物检测及多AGV距离的联合状态信息,并通过STGCN提取空间特征;构建奖励函数综合目标到达、避障、步数等指标,驱动策略优化;采用动作掩码机制约束合法动作选择,确保路径可行性。本发明在仓储系统中能够实现路径长度缩短、避障成功率提升及任务动态变更的高效响应。
技术关键词
自动导引车
路径优化方法
深度强化学习
长短期记忆网络
记忆单元
智能仓储系统
引导车
序列
空间特征提取
节点
特征提取模型
静态障碍物
动态障碍物
特征提取网络
参数
数据
策略更新