摘要
本发明公开了一种结合Transformer与元强化学习的城市干道自适应信号控制方法。本发明提出了分类训练分散决策的多智能体协作结构,定义了绿波待行车辆,设计了能够通过历史状态捕获潜在绿波需求的Transformer模块,在建立单智能体的马尔可夫决策模型中设计了一种权衡协调方向效益和交叉口整体效益的奖励函数,提出了双层元学习Bi‑MAML框架,设计了基于Bi‑MAML的多智能体PPO算法训练流程,实现了城市干道自适应信号控制。本发明提出的干道自适应信号控制方法具有能捕获潜在的绿波需求、兼顾协调方向效益与交叉口整体效益、减少训练成本并保障智能体的针对性与有效性、解决多交叉口模型迁移性差等优点,在实现自适应信号控制的同时有效解决了城市干道多交叉口训练成本高的难题。
技术关键词
交叉口
信号控制方法
车辆
样本
矩阵
副本
解码器
参数
编码器
算法模型
决策
多头注意力机制
智能体模型
神经网络结构
车道
保障智能
密度
分块