摘要
本发明提供一种基于策略复用的多智能体强化学习交通信号控制方法,属于交通信号控制技术领域。通过步骤:构建智能体通用EDLight模型;基于现有TOD场景对通用路网模型进行训练,并存储已学习环境模型;计算未知TOD目标环境和预训练任务环境的相似度;基于所述相似度,选择相似环境的预训练模型来指导目标智能体模型进行决策,并基于概率采样更新目标域模型,实现自主决策。实现了为未知目标网络模型选择最优策略,从而实现了智能体强化学习模型能够在路网中和跨路网迁移。解决了现有模型对交通信号控制迁移能力不足的问题。
技术关键词
交通信号控制方法
策略
智能体模型
编码器
交通信号控制技术
决策
动态变化模型
邻居
特征信息融合
解码器
强化学习模型
路口特征
预训练模型
交通信号灯
预测特征
周期
场景
注意力机制
网络架构
系统为您推荐了相关专利信息
锅炉受热面
裂纹检测方法
裂纹识别
合成孔径雷达成像
多帧雷达图像
光伏储能充电桩
电能分配量
充电状态数据
记忆单元
需求预测模型
高强高阻尼
异质结构
孔隙率可调
聚氨酯泡沫
泰森多边形
医学图像分割模型
结肠镜图像
医学图像分割方法
内窥镜设备
编码器