摘要
本申请公开了一种入匝道车辆汇入策略生成方法、装置、设备及介质,涉及智能交通领域,包括:获取预设交通数据,基于预设交通数据确定状态空间集合和动作空间集合并构建深度强化学习模型;深度强化学习模型包括策略网络和价值网络;针对状态空间集合中的当前状态,利用当前策略网络生成与动作空间集合中各可执行动作对应的概率,基于概率最高的可执行动作确定当前状态动作对;根据当前价值网络确定当前状态动作对的当前预期回报并基于当前预期回报对当前策略网络和当前价值网络进行训练,直至策略网络参数和价值网络参数满足预设稳定条件,基于最新的当前策略网络确定相应的入匝道车辆汇入策略,以利用入匝道车辆汇入策略进行相应的车辆汇入控制。
技术关键词
深度强化学习模型
策略生成方法
数据
车辆行驶状况
网络部署
交通系统
智能交通
训练装置
参数
可读存储介质
处理器
舒适度
电子设备
模块
天气
系统为您推荐了相关专利信息
融合特征
遥感图像语义分割
调制特征
频域特征提取
多尺度特征融合
风险分析系统
清洁箱
风险分析方法
火灾
监测设备
人工智能方法
条件生成对抗网络
图像空间分辨率
全局结构信息
CT图像数据
放牧强度估算方法
气象
注意力
LSTM模型
因子