摘要
本申请实施例提供一种自动驾驶决策方法、设备及存储介质,包括基于递增的周围车辆数量序列构建课程集;将课程集中的每一个课程分别作为多臂老虎机的一个臂;通过多轮迭代训练进行策略强化学习:利用多臂老虎机采样当前迭代训练周期的课程,按照预设规则将自动驾驶车辆以及与采样课程对应数量的周围车辆设置于目标道路场景中以获得重置的环境,智能体与重置的环境进行交互并通过策略决策自动驾驶车辆的动作,基于自动驾驶车辆执行动作的结果计算当前奖励,根据当前奖励更新策略的参数和多臂老虎机的概率分布。本申请能有效应对复杂道路场景的动态不确定性,增强自动驾驶系统在诸如无信号十字路口等复杂道路场景中的泛化性能与鲁棒性。
技术关键词
多臂老虎机
无信号十字路口
自动驾驶决策方法
车辆
策略
计算机可执行指令
场景
周期
自动驾驶系统
参数
表达式
车道
序列
可读存储介质
模块
鲁棒性
处理器
电子设备
程序