摘要
本发明提供一种基于深度强化学习的无人艇目标追踪决策控制方法,建立无人艇运动模型以获得无人艇当前运动状态;建立目标追踪任务奖励函数;基于软演员‑评论家算法构建深度强化学习网络模型,初始化;获取目标船舶的当前位置和预测位置;利用深度强化学习网络模型得到无人艇最优控制策略和更新后的无人艇运动状态;随机选取控制策略以得到更新后的目标船舶运动状态,将所述更新后的无人艇运动状态和更新后的目标船舶运动状态作为训练样本存储在经验池,当未追上目标船舶时重复以上过程;当追上目标船舶时从经验池中随机采样以更新所述深度强化学习网络模型参数。本发明提升无人艇的智能决策能力和跟踪性能,推动其在民用和军用领域的应用发展。
技术关键词
深度强化学习
无人艇
船舶运动状态
网络
控制策略
参数
坐标系
算法
方位角
螺旋桨
轨迹
样本
表达式
定义
力矩
推力
方程
系统为您推荐了相关专利信息
森林火灾检测方法
网络结构
森林火灾检测装置
支持权重
全局平均池化
编码向量
时序
编码特征
空间分布特征
电力设备状态监测