摘要
本发明提供了一种基于强化学习的地铁移动仓库供给策略优化方法及装置,涉及物流配送技术领域,所述方法包括基于地铁移动仓库获取参数信息,所述参数信息包括路网信息、订单需求信息和快递员信息;通过参数信息进行模型构建,基于顺序调度和马尔可夫决策得到地铁城配单中心强化学习模型;通过地铁城配单中心强化学习模型进行地铁移动仓库供给策略优化,得到最优供给策略,并根据最优供给策略分配任务和配送订单。本发明解决了现有的地铁物流运输尝试未能充分利用地铁的移动性和网络化优势,也未考虑快递员之间的协作问题,使得快递员配送路径固定,无法根据实时订单需求调整供给策略的问题。
技术关键词
策略优化方法
订单
强化学习模型
仓库
策略优化装置
时间段
栅格
物流配送技术
决策
分配单元
模块
算法
速度