摘要
本发明涉及自主水下机器人(AUV)决策、深度强化学习和水下目标跟踪领域,具体说是基于深度强化学习的双基地声呐水下目标跟踪AUV决策方法。本发明采用端到端的深度强化学习方法学习搭载接收器的AUV面向最优目标跟踪的动作决策,使得AUV能够根据态势的变化调整自己的运动以提高对目标的跟踪精度和跟踪保持时间,且该方案求解时间短,满足目标跟踪的实时性要求。在训练网络时,将滚动时域优化与深度强化学习相结合,利用已有的先验模型引导策略学习,能够保障AUV的安全,提高策略的稳定性。
技术关键词
滚动时域优化
决策方法
协方差矩阵
基地
声学信号处理
强化学习策略
接收器
神经网络参数
深度神经网络
深度强化学习方法
自主水下机器人
声呐线列阵
角度测量误差
置信传播算法
系统为您推荐了相关专利信息
岩石节理面
体积计算方法
点云配准方法
面点
三维激光扫描设备
光纤光栅静力水准仪
MEMS三轴加速度计
数据分析平台
传感器阵列
应变传感光缆
涂抹机器人
异形耐火砖
轨迹规划方法
面片
BP神经网络
面向低空飞行器
风险
高斯分布模型
概率密度函数
飞行器控制技术