摘要
本公开提供了一种基于动态残差安全强化学习的自动驾驶决策方法,任务模型输入安全关键场景状态,输出任务策略;安全模型输入安全关键场景状态和任务策略,输出安全策略;根据场景的风险强度对任务策略与安全策略构成的残差项进行加权,进而校正任务策略,获得混合策略;计算任务模型奖励和安全模型奖励;利用安全关键场景状态的风险强度映射样本采样概率,构造风险感知优先经验回放池;根据样本采样概率采样训练样本,对任务模型和安全模型进行强化学习训练。使用本发明能够解决现有技术中安全约束下性能受限、数据分布偏差等技术难题。
技术关键词
自动驾驶决策方法
障碍物
场景
风险
动态
策略
强度
车辆
因子
交通
多层感知机
样本
数据分布
校正
规模
加速度
车道
参数