摘要
本发明公开了一种基于安全强化学习的交通信号控制方法及系统,所述方法包括:获取多个历史状态信息,并利用注意力网络、行动者网络、奖励批评者网络和代价批评者网络处理得到第一概率值、第一奖励价值、第二奖励价值、第一代价价值和第二代价价值,然后通过奖励优势评估函数和代价优势评估函数得到优势评估值和代价评估值;基于优势评估值、代价评估值、第一概率值、奖励值、第一奖励价值、代价值和第一代价价值优化行动者网络、奖励批评者网络和代价批评者网络,重复上述过程,直至超过预设次数,得到训练后的行动者网络;获取当前时刻的观测信息,并输入至训练后的行动者网络得到当前动作以控制交通信号。本发明在保证效率下确保路口的安全性。
技术关键词
交通信号控制方法
网络
交叉口
交通信号控制系统
车道
表达式
梯度下降算法
注意力
密度
参数
阶段
策略
轨迹
因子
模块
误差
系统为您推荐了相关专利信息
泄露检测方法
天然气管道
多尺度特征提取
应力波传播速度
微尺度
声音事件检测方法
事件检测模型
融合经验模态分解
多头注意力机制
胶囊网络
多端直流系统
并网变流器
变流器控制方法
有功功率
生成同步信号
影像分类方法
胶囊网络模型
注意力机制
权重特征
主成分分析法