摘要
本发明公开了一种基于执行评论体系强化学习的无人船航向跟踪控制方法,所述方法包括获取考虑航行在海上的无人船舶会受到环境干扰影响的带有不确定干扰项的无人船航向控制数学模型;并将无人船航向控制数学模型转换成二阶状态空间方程,并将二阶状态空间方程作为无人船航向跟踪控制模型;根据无人船航向跟踪控制模型,构造无人船航向跟踪控制的一阶/二阶代价函数与一阶/二阶哈密顿‑雅可比‑贝尔曼方程,获得最优一阶虚拟控制率与最优最终控制器的估计值,且在船舶航向跟踪控制系统中,每一阶都会得到一个执行网络与评价网络,提高了船舶航向跟踪控制系统的学习能力,确保无人船能够高效的得到跟踪期望航向,以实现无人船航向优化跟踪控制。
技术关键词
无人船
航向跟踪控制方法
表达式
状态空间方程
网络
数学模型
动态误差
梯度下降法
控制器
跟踪控制系统
船舶
定义
策略
船舵
变量
非线性
指数
参数