摘要
本发明提供一种基于改进PPO算法的多AGV调度系统及其方法,该方法包括创建多AGV调度仿真环境,创建并初始化调度策略网络,创建价值函数网络,使用调度策略网络与AGV调度仿真环境进行交互,即策略网络根据当前环境状态生成调度决策,AGV调度仿真环境根据该调度决策执行相应的物理模拟,并在AGV调度仿真环境中执行调度任务,记录调度样本数据到样本数据池中;当样本数据池填满后,使用样本池中的调度样本数据,对策略网络和价值函数网络进行更新,调整网络参数;将训练好的调度策略网络包装为AGV的实时在线调度系统,对多个AGV进行实时、高效任务调度。本发明可以实现不同场景中AGV调度策略网络的训练,训练速度快且调度策略网络高效、灵活。
技术关键词
仿真环境
特征提取模块
调度系统
策略
拓扑地图
样本
栅格地图
强化学习算法
深度神经网络
决策
多层卷积神经网络
模拟真实场景
矩阵
路径搜索算法
任务调度
路径规划算法
数据
标记
系统为您推荐了相关专利信息
特征提取模块
解码模块
后处理模块
图像采集模块
编码模块
合成孔径雷达图像
融合分类器
融合分类方法
邻域
光谱生成器
多源数据融合方法
编码器方法
电网系统
数据格式
编码器结构