摘要
本发明公开一种面向双网络的智能车辆调度方法,包括:获取智能车辆的局部观测信息;将智能车辆的历史局部观测信息编码成隐藏状态向量;将隐藏状态向量输入策略网络和价值网络,策略网络输出动作的概率分布,价值网络输出状态的价值估计;MCTS算法利用策略网络和价值网络的输出进行搜索,最终输出最优动作;智能车辆根据MCTS算法搜索得到的最优动作执行相应的控制指令。本发明融合了深度强化学习、蒙特卡洛树搜索与LSTM网络,构建了策略网络与价值网络协同决策的框架,提高无信号交叉口车辆通行的安全性和通行效率,增强调度算法在部分可观测环境下的鲁棒性;通过策略网络将连续动作空间离散化,并结合蒙特卡洛树搜索进行高效决策。
技术关键词
智能车辆
双网络
策略
蒙特卡洛树搜索
节点
信息编码
无信号交叉口
连续动作空间
深度强化学习
车载传感器
梯度算法
调度算法
终点
决策
索引
鲁棒性
轨迹
坐标