摘要
提供了基于反事实学习的交通信号控制方法,包括:用于交通信号控制的强化学习模型与真实环境交互,根据真实环境的道路交叉口的当前状态s生成控制交通信号的动作a,并获得更新后的状态s’与奖励r;从真实环境收集状态转移元组(s,a,s’r)作为真实环境轨迹添加到所述强化学习模型的重放缓冲区;其中r代表由所述强化学习模型自身的奖励与安全奖励共同生成的奖励;从反事实环境收集状态转移元组(s,a_cf,s’,r)作为反事实环境轨迹添加到所述强化学习模型的重放缓冲区;其中a_cf代表反事实环境中的交通信号控制动作,反事实环境轨迹的奖励r代表由所述强化学习模型自身的奖励与反事实奖励CFr共同生成的奖励;从所述重放缓冲区采样轨迹并更新所述强化学习模型;以及根据所述强化学习模型生成的动作a产生交通信号。
技术关键词
强化学习模型
交通信号控制方法
代表
轨迹
道路交叉口
交通信号灯控制
神经网络参数
信息处理设备
处理器
存储器
策略
有效性
程序
模块
系统为您推荐了相关专利信息
辅助决策系统
农业害虫
十字花科蔬菜
生态
药物残留量
服务推荐模型
上下文特征
代表
服务推荐方法
服务推荐系统
车辆行驶轨迹预测
障碍物轨迹预测
地图元素
车辆控制方法
图像特征信息
故障分类方法
算法模块
数据存储模块
故障类别
BMC管理
教育系统
优化查询方法
深度强化学习模型
节点
查询策略