摘要
本发明涉及路径规划领域,具体提出了一种基于多头注意力机制的深度强化学习路径规划系统,旨在解决不同规模的旅行商问题(TSP)和车辆路径问题(VRP)。系统通过双通道编码处理静态与动态元素,利用多头注意力模块融合节点时空依赖关系,生成全局上下文向量,经指针网络计算节点选择概率分布并决策节点,同时更新系统状态、屏蔽无效节点以符合约束,重复迭代直至生成完整路径序列,优化路径总长度。该系统在强化学习框架下运行,包含actor‑critic双网络架构,采用随机梯度下降法结合裁剪梯度范数等优化方式,利用批量归一化和dropout技术提升性能。本发明能有效处理TSP和VRP问题,兼具良好时间效率与扩展性,为路径规划领域提供创新解决方案。
技术关键词
多头注意力机制
路径规划系统
深度强化学习
节点
强化学习框架
动态
随机梯度下降
车辆
贪心策略
更新系统
阶段
网络架构
仓库
元素
门控循环单元
指针
生成城市
决策