摘要
本发明公开了一种基于深度强化学习的物流机器人调度方法。本方法包括:首先,构建并训练深度状态价值网络DVN,通过对历史订单数据进行离线学习,采用时序差分法更新状态价值函数,并通过多物流机器人深度强化学习方法优化调度策略;然后,通过DVN和KM组合优化算法实现物流机器人与订单的实时匹配;最终,调度空闲物流机器人前往预期收益较高的区域等待下一轮调度。本发明通过构建深度状态价值网络DVN和采用组合优化方法,实现医院物流机器人对物流订单的高效调度。本发明在提升订单响应速度和减少订单等待时间方面有显著优势,并且适用于各类医院场景,能够有效提高物流调度效率,优化资源配置。
技术关键词
组合优化算法
上下文特征
医院物流机器人
路段
历史订单数据
深度神经网络学习
深度强化学习方法
组合优化方法
优化调度策略
优化资源配置
预测误差
深度优先搜索
顶点
时序
离线
系统为您推荐了相关专利信息
智能匹配系统
语义特征
查询意图
反馈特征
模态特征
计量方法
网关
节点
低压台区线损
低压配电网台区