摘要
一种用于快递包裹配送中批量旅行商问题(TSP)求解的高效强化学习方法。通过构建规划信息设计与融合模块,基于配送任务的图结构环境模型,设计规划策略,并将非参数化规划信息融入神经求解器决策过程,引导路径探索,提升批量任务探索效率。设计多样性群体探索模块,采用共享编码器‑多个解码器架构,赋予各解码器多样化解码策略,引入群体协同基线,通过共享缓冲区存储路径方案并计算平均配送距离作为基线,促进策略多样性,提升整体探索能力。实施粗粒度三分搜索方法,利用高斯噪声扰动结合三分搜索机制,快速锁定最优规划信息强度区间,优化神经求解器的泛化能力,实现总配送距离最短。该方法为快递配送路径优化提供高效解决方案。
技术关键词
规划
强化学习方法
搜索方法
策略
基线
快递包裹
配送路径优化
批量
噪声
距离信息
强度
决策
解码器架构
神经网络结构
编码器
计算机程序产品
机制
矩阵
模块
系统为您推荐了相关专利信息
决策树模型
数据清理方法
策略
计算机程序产品
数据访问
无人机飞行路径
无人车
飞行路径规划
位置更新过程
年龄
相位方法
多实例
注意力机制
切片
二维卷积神经网络
支持人工智能
分析模块
算法
数据传输模块
监控设备