摘要
本发明公开一种基于强化学习的前置仓分拣线路规划方法,包括如下步骤:S1:构建智能体P和智能体R,并分别定义智能体P和智能体R的状态空间、动作空间、奖励函数及优化目标;S2:对智能体P和智能体R的所有参数及策略进行初始化;S3:对构建的智能体P和智能体R进行训练;S4:利用反向传播算法对策略梯度进行求导,计算梯度下降更新神经网络参数;S5:重复上述步骤S3~S4,得到训练完成的智能体P和智能体R,并规划前置仓分拣路线。本发明能够根据当前前置仓的库存情况、货架需求动态计算出最优分拣策略,包括分拣次数、每次分拣量以及分拣路线,确保分拣人员以最短的时间和最小的行走距离完成任务。
技术关键词
线路规划方法
前置仓
神经网络参数
货架
栅格
梯度下降法
策略
规划最优路径
传播算法
定义
生成随机数
数据
因子
元素
序列
坐标
偏差
表格
系统为您推荐了相关专利信息
路径规划方法
节点
通信特征
排队等待时间
无人农机
行走轮组件
搬运机器人
货架单元
升降轨道
仓储系统