摘要
本发明提供了一种基于最大化轨迹熵SAC强化学习的eVTOL安全避障方法,用于处理飞行的eVTOL在城市动静态环境中的安全避障问题,利用所述eVTOL动力学方程设计约束集,并基于所述约束集对MDP模型的选择策略进行约束从而得到初始CMDP模型,再对其进行迭代训练,并在每次迭代过程利用最大化轨迹熵SAC算法优化初始CMDP模型得到训练好的CMDP模型;利用该训练好的CMDP模型选择出最优当前动作。相较于传统的基于策略熵项的最大熵强化学习算法,本发明收敛速度更快,表现更加稳定,且安全避障任务完成率高,为eVTOL自动驾驶功能设计提供了新的思路。
技术关键词
避障方法
障碍物
轨迹
网络
方程
强化学习算法
加速度
无人机
动静态
数据
策略
定义
标志位
参数
噪声
坐标
思路