摘要
本发明公开了一种基于在线深度强化学习的动态车辆路径优化方法,主要解决现有动态车辆路径优化方法动态变化适应能力差、算法实时性差的问题。其实施方案为:1)生成数据集;2)构建决策模型;3)构建并训练策略网络模型和值函数估计网络模型;4)使用训练好的策略网络模型求解带时间窗的动态车辆路径问题。本发明根据车队配送客户的时间顺序建立部分可观测的马尔可夫决策模型,并设计相应的策略网络和值函数估计网络优化车辆路径。训练得到的策略模型可快速给出动态车辆最优路径,并可根据相关条件的动态变化在线调整计划路径,在保证求解质量的同时拥有更快的求解速度,提高了算法在处理动态车辆路径优化问题时的实时性。
技术关键词
节点特征
策略网络模型
深度强化学习
客户
构建决策模型
动态车辆路径优化
生成数据集
注意力
编码器
系统状态信息
仓库
带时间
Adam算法
在线
更新模型参数
系统为您推荐了相关专利信息
软件授权验证方法
动态密钥
摘要
订阅管理方法
服务器
客户
分类方法
轮廓系数
Apriori算法
网络爬虫技术
低延时装置
因特网服务提供商
计算机可读媒体
队列
电缆调制解调器