摘要
本发明提供一种面向智能工厂的多无人车的强化学习路径规划方法,包括:搭建送料路径规划仿真环境;以每个无人车作为一个智能体,将智能体与环境进行交互来提取信息,据此构建马尔可夫决策模型的状态空间、动作空间、奖励函数;搭建IPPO算法网络,基于其和奖励函数对马尔可夫决策模型的策略进行训练;在训练时,通过将裁剪损失通过引入超参数的方式结合KL散度,从而改进得到带有回滚策略的策略网络损失函数;在每个时刻根据无人车的实际当前位置确定当前状态,将当前状态输入所述策略网络,输出当前动作供无人车执行。本发明的方法收敛速度较快,策略更新稳定,探索能力强,可以有效减少路径堵塞,具有很强的环境适应能力。
技术关键词
学习路径规划方法
智能工厂
无人车
网络
策略更新
仿真环境
输出特征
障碍物
网格
决策
超参数
标记
比率
送料
轨迹
蒸馏
布局
采样点
系统为您推荐了相关专利信息
故障定位模型
配电线路故障定位
多尺度
节点特征
长短期记忆网络
轨迹预测方法
轨迹预测模型
深度学习模型
数据
神经网络模型
电子签名验证方法
时序
多模态
二维卷积神经网络
构建深度神经网络