摘要
本公开提供了一种用于复杂环境的无人自主导航策略强化学习方法。该方法构建策略网络的状态空间包括:智能体与局部目标点之间的相对位置、智能体与最终目标点之间的相对位置、智能体状态和视觉信息嵌入;利用历史数据对策略网络进行模仿学习,实现热启动;对步骤2模仿学习后的策略网络进行强化学习;在强化学习的训练循环中,每一步都基于RRT更新RRT路径;然后基于更新的RRT路径,计算即时奖励。使用本发明能够提升较大范围内、复杂野外环境下的无人车自主导航的精度。
技术关键词
强化学习方法
策略
控制智能体
网络
视觉
仿真环境
热启动
RRT算法
因子
坐标
编码器
搜索算法
无人车
数据
模块
障碍物
加速度
基础
射线