摘要
本发明公开了一种基于深度强化学习的无人机着艇方法,涉及控制技术领域;其包括如下步骤,步骤S1:获得无人机与无人艇之间的相对位置;步骤S2:无人机的着艇视觉系统跟踪定位无人艇;步骤S3:设置获得两个奖励函数分别为步长奖励函数和时间奖励函数,用于无人机的控制器约束无人机的降落时间;步骤S4:使用TD3算法,引入噪声以避免收敛到局部最优解;在更新评论者网络时,目标策略网络间断更新;TD3算法通过确定性策略梯度更新参数φ并引入超参数进行软更新;步骤S5:建立自动课程学习机制,将复杂任务分解为一系列更简单的子任务;其通过步骤S1至步骤S5等,实现高效着艇。
技术关键词
深度强化学习
确定性策略梯度
无人艇
四旋翼无人机
网络
视觉系统
超参数
加速度
策略更新
轴旋转
算法
基础
坐标系
噪声
批量数据
螺旋桨
系统为您推荐了相关专利信息
智能监测方法
谐波
耦合器阵列
信号采集模块
超表面
输电线路风险评估
多源监测数据
电网实时状态
语义标签
点云
桥梁性能评估
寿命预测方法
指数
三维扫描数据
服役工况
脉冲发生器
解堵方法
解堵装置
谐振
神经网络原理
图像去雨
浅层特征提取
前馈神经网络
注意力机制
编码解码器