摘要
一种减少车辆超参数调整的深度强化学习方法,涉及基于深度强化学习的自动驾驶车辆减少超参数调整的技术领域。提出了深度逆强化学习的车辆操纵稳定性非线性奖励学习架构,并进一步提出了高速公路场景下自车非线性操纵稳定性奖励与行驶规则奖励的自动驾驶集成决控策略,大大减少了在集成决控策略训练过程中对车辆操稳奖励函数的超参数设置。本发明的步骤是:获取深度逆强化学习训练所需的专家策略;使用深度逆强化学习获取车辆操纵稳定性奖励;使用多进程异步方法加速深度逆强化学习训练速度;高速复杂场景中的车辆集成决控。本发明能够在不依赖车辆大量的稳定性超参数设置的基础上,实现在高速场景中具有车辆稳定性保持能力的集成决控。
技术关键词
深度逆强化学习
深度强化学习方法
车辆
进程
梯度下降算法
表达式
策略
异步方法
超参数
最佳滑移率
路面摩擦系数
神经网络参数
概率分布函数
高速公路场景
工况
数据
系统为您推荐了相关专利信息
运动编码器
运动轨迹数据
意图
提示方法
长短期记忆神经网络
电力线载波信号
载波通讯模块
主控模块
控制器
通讯系统
建设规划方法
充电桩信息
车辆
时间段
向量特征提取
无人车转向
特征提取网络
转向角
矿井
光流估计算法