摘要
本发明涉及强化学习技术领域,且公开了基于松散同步的城市交通强化学习并行训练方法,包括以下步骤:S1、路网分区及初始化;S2、初步模拟与数据记录;S3、松散同步通信;S4、边界处理;S5、并行奖励计算;S6、模型训练与策略更新;S7、收敛性验证。本发明中,提出每轮强化学习训练结束时才进行信息的跨区域同步,取代传统每回合每个时间步均进行一次信息同步的方式,显著减少了通信频率。这避免了因同步通信成本过高而拖慢整体训练效率的问题,在大规模交通网络仿真和强化学习训练中,能有效降低同步开销,提升训练速度。
技术关键词
并行训练方法
分区
强化学习模型
车辆
策略更新
仿真器
进程
交通状态信息
误差函数
强化学习技术
强化学习算法
模拟器
节点
密度
速度
邻域
多线程
压力
决策
系统为您推荐了相关专利信息
竖向加速度
大跨度斜拉桥
轮轨力
LSTM模型
二系悬挂
车载人机交互
环境检测模块
预警系统
双模态
数据处理模块