摘要
本发明公开了一种于改进最大熵强化学习的矢量推进UUV机敏运动控制方法,属于水下航行器运动控制技术领域。本发明建立矢量推进UUV六自由度机敏运动模型;将深度神经网络模型与SAC算法框架相结合,根据深度神经网络模型与实际环境模型的差异选择采样步数n,并采用n‑step TD算法将想象经验数据训练评价网络;根据深度神经网络模型与实际环境模型的差异判断环境变化程度,进而选择策略网络或者备份控制器用于实际控制输出;利用本发明利用深度强化学习的强大学习能力和传统非线性控制方法的可解释性,可以实现矢量推进UUV在参数摄动或完全未知、环境干扰未知、状态约束条件下的三维空间机敏运动控制,并且在保证控制方法安全可靠的前提下进行工程实现和部署。
技术关键词
运动控制方法
深度神经网络模型
策略
SAC算法
训练深度神经网络
矢量推进器
优化深度神经网络
非线性控制方法
备份
非线性控制器
运动控制技术
偏转角
深度强化学习
水下航行器
算法框架