摘要
本申请涉及一种基于Lyapunov与深度强化学习的AGV路径规划控制方法。所述方法包括:S1:分别构建AGV的状态空间、连续动作空间以及复合奖励函数;S2:采用SAC算法作为深度强化学习框架,通过最大化累积奖励与策略熵优化AGV控制策略模型;S3:构建包含动态障碍物、AGV初始位置及目标位置的仿真环境S4:实时采集AGV的复合状态信息;S5:通过AGV控制策略模型输出连续动作空间,驱动AGV按照角速度和加速度执行轨迹规划;S6:根据AGV动作更新仿真环境,重新计算障碍物距离、位置及目标点相对状态;S7:若AGV到达目标点,则终止当前训练周期并保存策略模型;否则返回步骤S4继续迭代;S8:利用保存的策略模型进行AGV路径规划。
技术关键词
路径规划控制方法
深度强化学习
控制策略模型
连续动作空间
AGV路径规划
仿真环境
稳定性验证方法
动态障碍物
参数优化方法
SAC算法
定义
加速度
轨迹
处理器
框架
计算机设备
矩阵