摘要
本发明涉及无人艇领域,具体涉及一种基于安全强化学习的无人艇姿态控制方法,包括如下步骤:获取无人艇的动作状态;将动作状态作为马尔科夫决策模型的状态空间,生成动作输入空间;根据无人艇姿态的安全性约束,设计安全强化学习算法,在考虑安全性约束成本条件下,动态生成控制无人艇动作的动作序列,并输出其中的最优动作序列;评估无人艇在执行所述最优动作序列后,无人艇的姿态是否在安全阈值内;将动作序列作为无人艇交互数据储存至经验回放缓冲区中作为经验,以供安全强化学习算法不断学习。在安全强化学习算法的优化目标中引入了安全性约束,用于平衡最大化奖励和安全约束成本,避免了无人艇只关注最大化奖励而忽略安全性的问题。
技术关键词
无人艇
姿态控制方法
强化学习算法
梯度下降法
坐标系
序列
生成动作
网络
闭环控制
纵摇角度
决策
定义
核心
参数
减摇鳍
陀螺
误差
动态
力矩
速度
系统为您推荐了相关专利信息
旋翼飞行机械臂
跟踪控制方法
抓取轨迹
李雅普诺夫函数
坐标系
偏差
预警方法
桥式起重机吊装
坐标系
AI识别技术
驱动控制系统
驱动器单元
同步电机
控制器单元
编码器单元
折弯设备
协同控制方法
协同控制系统
设备运行状态数据
深度强化学习算法
多无人机协同通信
决策
网络
状态判断单元
信息熵