摘要
本发明公开一种基于强化学习的无人机导航避障控制律设计方法,包括以下步骤:建立无人机导航避障仿真训练环境;构建无人机的马尔科夫决策模型;训练引入时序注意力的深度强化学习SAC算法,以获取具有根据环境状态做出合适控制动作的神经网络参数;部署训练好的神经网络模型,进行导航避障任务。通过引入时序信息的无人机导航避障马尔可夫决策模型,训练引入时序注意力的深度强化学习算法,使其能够获知之前一段时间的飞行状态及障碍物信息,以达到加快算法收敛速度、提高任务成功率,并实现了无人机的全自动导航避障任务,为复杂环境中无人机自主、安全、有效的导航避障提供了实际有效的思路。
技术关键词
控制律设计方法
神经网络参数
注意力
表达式
SAC算法
训练神经网络
构建无人机
推力
深度强化学习模型
神经网络模型
深度强化学习算法
仿真环境
障碍物
时序特征
距离探测器
决策
系统为您推荐了相关专利信息
情绪特征
情绪识别方法
情绪识别模型
声纹特征
注意力
岩石特征
岩石识别
识别系统
灰度统计直方图
图像识别模块
手部关键点
人机交互方法
手势
协方差矩阵
融合深度信息