摘要
本发明公开了一种数据驱动的易腐品多级库存水平优化方法及系统,涉及深度强化学习技术领域。包括步骤:对于零售节点,采集易腐品的历史销售数据和外部特征数据,并输入神经网络训练;采集易腐品的运输环境信息;构造并初始化训练网络和目标网络、经验回放池;基于运输环境信息定义状态和动作,后两者分别表示指定日期的在途转运量、当天发出量;基于运输环境信息构建奖励函数,用于对状态及其动作生成奖励值;对训练网络进行迭代训练,并将得到的状态转移存入经验回放池;从经验回放池选择样本,结合目标函数更新网络参数,并定期同步至目标网络;由目标网络输出最优转运量序列。最终实现对仓库点到零售点间的物流调度,优化配送频率与批次组合。
技术关键词
节点
更新网络参数
数据模块
神经网络训练
仓库
深度强化学习技术
样本
状态更新
时序
贪婪策略
序列
日期
误差
定义
周期