摘要
本发明涉及无人艇领域,具体涉及一种基于安全强化学习的无人艇姿态控制方法,包括如下步骤:获取无人艇的动作状态;将动作状态作为马尔科夫决策模型的状态空间,生成动作输入空间;根据无人艇姿态的安全性约束,设计安全强化学习算法,在考虑安全性约束成本条件下,动态生成控制无人艇动作的动作序列,并输出其中的最优动作序列;评估无人艇在执行所述最优动作序列后,无人艇的姿态是否在安全阈值内;将动作序列作为无人艇交互数据储存至经验回放缓冲区中作为经验,以供安全强化学习算法不断学习。在安全强化学习算法的优化目标中引入了安全性约束,用于平衡最大化奖励和安全约束成本,避免了无人艇只关注最大化奖励而忽略安全性的问题。
技术关键词
无人艇
姿态控制方法
强化学习算法
梯度下降法
坐标系
序列
生成动作
网络
闭环控制
纵摇角度
决策
定义
核心
参数
减摇鳍
陀螺
误差
动态
力矩
速度
系统为您推荐了相关专利信息
锅炉管壁
红外热像图
坐标系配准
可见光相机
卷积神经网络分类
屋顶
可视化设计方法
三维场景模型
光伏组件
数据
深度神经网络处理器
图形处理芯片
鱼缸
动态背景
微型摄像头