摘要
本发明涉及强化学习应用技术领域,本发明公开了一种MAPPO强化学习的公交实时调度方法、系统与存储介质,该方法包括以下步骤:根据公交路网构建多智能体强化学习模型,使每条路线对应一个智能体;获取多智能体状态,并通过MAPPO动作选择组件产生候选动作引入可配置的场景约束管道对所述候选动作进行约束,并生成最终的执行动作;本发明实现了业务场景约束与算法模型的解耦合,提高应用的复用能力,降低模型落地难度。
技术关键词
公交实时调度方法
多智能体强化学习
预测公交到站时间
预测客流量
场景
算法模型
线路
可读存储介质
管道
车辆
计算机
参数
系统为您推荐了相关专利信息
环境智能感知系统
多无人艇协同
图像数据处理系统
无人艇控制系统
激光扫描雷达传感器
智能调配系统
智能分析模块
物资需求预测
数字孪生
Attention机制
优化控制方法
控制策略
场景
优化控制系统
马达控制
环境传感器数据
环境状态信息
监控设备
家用监控系统
时序特征