摘要
本发明公开了一种基于类脑强化学习的端到端自动驾驶决策方法和系统,属于自动驾驶领域。给定车辆视觉信息、导航信息和控制信息,引入视觉的细粒度信息;利用编码器组提取观测的低维表征;采用强化学习训练基于脉冲神经网络的策略网络,在训练阶段以观测的低维表征为输入,输出在强化学习时学习到的均值和方差和模仿学习时学习到的方差;训练过程中选择执行生成动作或专家动作,根据所执行动作计算奖励并得到下一时间步的观测,生成五元组存储到数据容器;当满足强化学习的参数更新时间要求时,采用基于回报分布的方式构建强化学习损失函数,完成策略网络和编码器组的训练;在自动驾驶车辆上布置训练后的策略网络和编码器组以实现自动驾驶任务。
技术关键词
自动驾驶决策方法
车辆视觉
生成动作
网络
策略
编码器
参数
决策系统
线检测技术
图像分割技术
脉冲
概率密度函数
容器
阶段
数据获取模块
车辆转向
编码模块
系统为您推荐了相关专利信息
网络流量数据
联合检测模型
融合网络流量
计算机网络入侵检测
粒子群优化算法
电压检测系统
电压检测方法
电压检测模块
车辆
电源管理模块
协方差矩阵
基扩展模型
OFDM符号
周期
非线性状态空间
康复助行机器人
动力式下肢外骨骼
耦合控制系统
信号采集系统
下肢外骨骼系统
风险评估模型
预后风险评估
级联
XGBoost模型
神经网络模型构建