摘要
本发明提供一种自动导引运输车不停车分拣控制模型的训练、控制方法及装置。通过预设传感器实时采集状态参数构建状态空间,基于分拣投递控制要素构建动作空间。根据包裹是否抛出动态调整奖励值,包裹未抛出时,引入包裹落点预测奖励、AGV位置偏移奖励、传送带加速度奖励和移动机构加速度奖励;包裹抛出时,基于实际落点计算奖励值。通过强化学习算法,利用奖励值计算每个时间步的回报和优势值,结合优势值限制新旧策略概率比的变动范围优化策略网络,同时通过最小化价值预测误差优化价值网络。引入超网络,以经验池中记录的状态参数为输入,训练副神经网络,使其在新状态下优先生成主神经网络的初始参数,显著提高分拣效率和准确性。
技术关键词
导引运输车
控制模型训练方法
包裹
加速度
超网络
神经网络参数
策略
传送带
预测误差
移动机构
轨迹
分拣控制方法
多层感知机
分拣口
路径规划算法
强化学习算法
偏差