摘要
本申请涉及自动驾驶技术领域,特别涉及一种具有因果混淆的安全关键场景下车辆的因果强化学习系统,包括:策略生成网络模块和因果图模块;因果图模块由因果模型构成;因果模型包括状态因果模型和奖励因果模型;奖励因果模型用于根据奖励与其他特征之间的因果关系重新分配奖励,状态因果模型识别真实的因果关系,以防止算法被因果混淆特征误导;因果模型为因果图和全连接层的组合;因果模型是采用基于梯度的因果发现算法构建得到;因果图采用一个有向二元邻接矩阵来表示,矩阵同时包含奖励因果图和状态因果图。本申请提供了一种具有因果混淆的安全关键场景下车辆的因果强化学习系统,以增强自动驾驶车辆在具有因果混淆的安全关键场景中的鲁棒性。
技术关键词
强化学习系统
场景
动作特征
网络模块
车辆
速度
鲁棒性
自动驾驶技术
级联
算法
抽样方法
节点
策略
随机噪声
网络结构
变量
矩阵
参数
系统为您推荐了相关专利信息
压力传感器阵列
车辆座椅
乘员
座椅靠背
座椅头枕
环境建模方法
场景特征
智能安防
拓扑特征
构建三维场景
场景知识图谱
拓扑结构信息
调控策略
照明设备
神经网络算法
多模态数据融合
监测环境变化
采集设备
实时数据采集
低延迟