摘要
本发明涉及智能交通技术领域,且公开了一种在混合交通流环境下基于混合深度强化学习的端到端车群协同决策方法。该方法通过设计了一种针对复杂交通场景的图结构建模方法,从底层实现了交通参与者之间的通信机制,其次,本发明基于图卷积方法的时空编码器实现了对环境观测中时空信息的有效嵌入,为系统理解环境中的时空耦合信息实现了前提条件,最后,将actor‑critic架构与Q学习架构深度耦合,构建了一种新型的适用于混合动作空间的强化学习方法,基于该方法完成模型训练后,可通过保存与加载模型参数实现模型的部署,部署完成的模型可通过输入环境观测数据从而输出被控车群的协同决策。
技术关键词
连续型
混合交通流
深度强化学习模型
决策方法
策略
网络图结构
结构建模方法
参数
表达式
广义
强化学习方法
智能交通技术
笛卡尔坐标系
编码器
概率密度函数
卷积方法
掩码矩阵
噪声
系统为您推荐了相关专利信息
交易策略生成方法
利润
电力负荷预测
生成程序
策略生成装置
策略
引导机器人
控制机器人行走
正则化方法
算法
智能监测系统
大数据
互联网
显著性检验方法
智能监测方法
参数辨识方法
双闭环控制策略
光伏并网逆变器
三相光伏发电系统
算法
抗体
液冷控制方法
人工免疫算法
优化约束条件
参数