摘要
本申请实施例提供一种基于强化学习的自动驾驶端到端导航方法、控制装置和设备,该方法包括:S1:通过视觉传感器实时获取环境图像,利用变分自编码器提取潜在特征向量,生成动态环境状态信息;S2:选取基于最大熵的SAC(Soft Actor‑Critic,SAC)算法构建强化学习框架;S3:设计多源融合奖励函数,所述奖励函数包括:基于用户偏好的主动偏好学习机制、基于好奇心的奖励机制和自主避障机制;S4:根据所述奖励函数输出的综合奖励值,生成导航动作指令,实现无高精地图与预设路径的端到端自动驾驶。该方法不依赖高精地图和预设的路径规划,凭借自身的感知、学习和决策能力,从任意起始位置导航至目标位置,极大地提高了自动驾驶系统的环境适应性和灵活性。
技术关键词
生成动态环境
机制
强化学习框架
多源融合
导航方法
超声波传感器数据
查询生成方法
传感器融合算法
视觉传感器
构建栅格地图
车辆动力学模型
仿真环境
障碍物
贝叶斯框架
自动驾驶系统
存储计算机程序
指令
存储器
系统为您推荐了相关专利信息
室内导航方法
语音识别单元
多模态
定位单元
场景
机载电子系统
红外序列图像
故障诊断方法
融合注意力机制
语义分割模型
动态组网方法
链路状态变化
长短期记忆网络
探针模块
子模块
联合发电系统
模型预测控制方法
漂浮式
代表
非线性数学模型