摘要
本发明提出基于简化环境与动力学的无人艇路径规划强化学习方法,步骤如下:搭建真实环境,设定无人艇状态s为无人艇位置,奖励函数r为无人艇规划路径的长度的负值,无人艇具有高阶带不确定参数的动力学模型,控制信号为u;搭建简易环境,无人艇状态ss、奖励函数rs、环境障碍物的设定与真实环境相同,无人艇具有二阶积分串型动力学模型,控制信号为us;设计第一策略网络与简易环境交互,输入和输出分别为简易环境无人艇状态ss和控制信号us;设计第二策略网络与第一策略网络和真实环境交互,输入和输出分别为简易环境的控制信号us和真实环境的控制信号u;并完成两个策略网络的训练。本发明简化了无人艇系统在复杂环境中的路径规划。
技术关键词
简易环境
无人艇路径规划
强化学习方法
网络
多层感知机
信号
障碍物
无人艇系统
参数
表达式
误差
策略更新
终点
算法
因子
坐标
矩阵
系统为您推荐了相关专利信息
迁移识别方法
离心泵
深度残差网络
特征提取器
组合特征向量
通信协议识别方法
特征值
协议识别模型
数据
协议转换模块