摘要
本发明公开了一种基于安全意识聚集的强化学习交通信号控制方法,包括:构建模型;训练所述模型,包括:步骤一:获取历史状态信息;步骤二:更新第一模块,所述第一模块包括状态编码器、动作‑状态编码器、溢流编码器和等待编码器;步骤三:更新第二模块,所述第二模块包括行动者网络、奖励批评者网络、溢流代价批评者网络和等待时间批评者网络;步骤四:重复步骤一至步骤三,直至超过预设次数,得到训练后的模型;获取当前时刻的观测信息,将当前时刻的观测信息输入至训练后的行动者网络中,得到当前动作以控制交通信号。本发明将安全性融入到环境交互、状态表征以及策略学习三方面,提高交通的安全性。
技术关键词
交通信号控制方法
状态编码器
交叉口
网络
表达式
模块
梯度下降算法
超参数
策略
车辆
信息更新
信息处理
车道
因子
道口
阶段
密度
系统为您推荐了相关专利信息
网元设备
数据通信方法
数据通信系统
网络拓扑
负荷
资源动态调度方法
媒体会话
资源配置参数
平台
工业远程监控
烧烤炉
数据处理模型
加热
视频
循环神经网络模型
风机主轴
缺陷识别系统
裂纹缺陷
声纹特征
多尺度卷积神经网络