摘要
本发明公开了一种马尔科夫决策过程模型训练方法及轨迹规划方法,包括:获取车辆周围的道路交通信息,并根据所述道路交通信息决策出所述车辆的行驶状态;根据所述行驶状态,构建马尔科夫决策过程模型,所述马尔科夫决策过程模型包括状态空间、动作空间、多车网络共享的DQN神经网络以及奖励函数,所述DQN神经网络用于基于所述状态空间从所述动作空间中选择最优的状态动作值来对所述车辆进行控制,得到所述车辆的轨迹规划策略,所述奖励函数用于量化所述轨迹规划策略的性能;通过将多个车辆采集到的经验放入网络经验池,所述DQN神经网络通过随机采样的方式从经验池中采样进行经验回放并更新神经网络参数。
技术关键词
道路交通信息
车辆轨迹规划
模型训练方法
决策
动态轨迹规划方法
神经网络参数
车道
转移概率矩阵
拥堵状况
贪婪策略
交通信号灯
因子
更新方法
加速度
系统为您推荐了相关专利信息
动态优化方法
机器学习模型
动态优化系统
效能
压力
缺陷预测方法
多时间尺度
结构方程模型
生成多尺度
节点
归一化植被指数
地表温度数据
动态决策方法
日期
矢量掩膜