摘要
本发明属于物资预置储备技术领域,具体涉及一种基于深度强化学习的多品类物资预置预储测算方法,所述方法的基本思路是,通过输入的状态信息使用神经网络对Q值函数进行拟合,并结合多种启发式规则,决策出最优的物资调度动作,从而降低预置预储总成本。所述方法能够格局环境的反馈不断优化策略,这意味着可以适时调整库存策略,以适应需求的波动和供应关系的变化;所述方法马尔科夫链能够很好的捕捉时间序列数据中的依赖性,这使得它在处理具有时间序列特征的问题时非常有用。强化学习结合马尔科夫链可以更好的理解和预测未来的需求模式,从而更准确的进行库存管理。
技术关键词
节点
启发式规则
仓库
决策
物资需求预测技术
网络状态信息
深度Q网络
深度神经网络
深度强化学习模型
深度强化学习算法
阶段
时间序列特征
复杂度
策略
批量
时效性
层级
库存管理
系统为您推荐了相关专利信息
肌肉刺激仪
校准方法
神经网络模型
异构
交互系统
调峰辅助服务
优化决策方法
调度优化模型
火电
机组
充电站
需求预测模型
数据预测模型
动态定价机制
深度强化学习