摘要
本申请公开一种针对多车强化学习的决策方法、装置、存储介质及设备,包括:为基于多车强化学习模型控制的每个车辆分配优先级指数;按照优先级指数从高到低的顺序遍历每个车辆;针对遍历的当前车辆,获取多车强化学习模型输出的第i时间步内的探索性动作,判断当前车辆与其他车辆在第i时间步内是否存在碰撞风险;若不存在,则将第i时间步内的探索性动作作为当前车辆在第i时间步内的实际动作;否则基于当前车辆在第i时间步处的安全裕度,从有效动作集合中筛选出当前车辆在第i时间步内的实际动作;将i+1后获得新的i,并返回执行获取第i时间步内探索性动作的步骤,直至确定当前车辆在预设时间范围内每个时间步的实际动作后,继续遍历下一车辆。
技术关键词
强化学习模型
车道
车辆运动学模型
轨迹
指数
车头
决策方法
终点
风险
分配单元
存储装置
电子设备
策略
处理器
网络
模块
可读存储介质
程序
系统为您推荐了相关专利信息
实时监测数据
分子结构信息
优化控制策略
关系
异构
深度强化学习模型
协同控制方法
车辆运动规划
深度Q网络
交叉口
雷达设备
协同控制方法
控制服务器
协同控制系统
显示设备
诊断特征
心源性猝死
逻辑回归模型
计算器
构建训练集