摘要
本发明公开了基于需求预测和深度强化学习的多级库存控制方法及系统,首先,利用需求预测模型得到需求预测数据,并将其适应性转变为多产品、多仓库环境下的数据;基于马尔可夫决策过程建模,其中状态向量包含各仓库的库存水平、在途订单数量及过去需求值,动作向量为生产量和补货量,奖励函数以系统总成本的负值激励智能体降低成本;通过深度强化学习DRL算法求解库存控制决策,并与需求预测数据对比决策,考虑季节性波动因素调整安全库存量。本发明结合需求预测模型和DRL的优势,弥补了传统DRL在多产品、多仓库复杂条件下的决策不足,有效控制季节波动性大的产品库存,在两级库存控制系统中实现成本优化与市场波动应对的平衡。
技术关键词
库存控制方法
深度强化学习
需求预测模型
连续动作空间
库存控制系统
决策
仓库环境
更新网络参数
最小化系统
数据
生成轨迹
订单
策略
周期
定义
时间段
基线
偏差
系统为您推荐了相关专利信息
障碍物
连续动作空间
SAC算法
无人机机载传感器
更新网络参数
深度强化学习模型
航空发动机
网络
数据获取模块
样本
转移概率矩阵
检查点
决策
深度强化学习模型
序列
模糊Petri网
红外感应设备
TensorFlow框架
差分隐私保护
电力消耗最小化