摘要
本发明具体涉及一种基于强化学习的无模型AUV深度控制方法,包括:建立AUV动力学模型;基于AUV动力学模型,采用马尔科夫决策过程建立AUV与环境的交互模型,确定AUV控制系统的动作空间变量和状态空间变量,建立AUV深度控制目标函数和分段式奖励函数;建立神经网络模型,分别建立策略网络和评价网络,采用连续的PPO算法对控制策略进行模型训练,得到AUV的控制策略参数;所述AUV的控制策略参数用于实现AUV的垂直面定深控制;通过强化学习,使得AUV在设定深度控制训练中每固定步长更新训练网络,直至收敛,得到用于在预定深度的最终策略网络。本发明具有较高的实时控制能力和自适应控制特性,能够有效应对环境变化,展现出深度控制鲁棒性和深度控制适应性。
技术关键词
深度控制方法
建立神经网络模型
交互模型
控制系统
坐标系
误差
优化控制策略
变量
螺旋桨
生成动作
计算机程序产品
分段
算法
参数
推力
决策
鲁棒性
系统为您推荐了相关专利信息
测试结构
全息三维
智能测试系统
测试金属结构
虚拟节点数量
训练机器学习模型
代码优化方法
可视化界面
大数据
版本控制系统
模数转换模块
固态继电器模块
隔离式放大器
主控芯片
合闸装置