摘要
本发明公开了一种车辆变道决策模型训练方法和车辆变道决策方法,所述方法包括:获取仿真环境中自车的行驶状态信息,根据行驶状态信息构建马尔科夫决策模型的状态矩阵;将状态矩阵输入强化学习模型进行处理,预测得到状态矩阵对应的行为决策信息;根据行为结果信息和预设的奖励函数确定本次变道任务的奖励得分;将奖励得分、行为决策信息、当前时刻的状态矩阵、下一时刻的状态矩阵,带入损失函数,确定本次任务的损失值;采用外部元学习算法更新强化学习模型的参数进行迭代训练,得到车辆变道决策模型。本方案能够能够在小样本的训练下获得强化学习大量训练数据下的效果,并且能够在不同车流密度、不同路段的变道场景下有很好的泛化能力。
技术关键词
行驶状态信息
决策模型训练方法
强化学习模型
车道
车辆
加速度
矩阵
决策方法
元学习算法
仿真环境
交通
标志
模型训练装置
模块
电子设备
程序
处理器
指令
可读存储介质
系统为您推荐了相关专利信息
车辆数据处理方法
冗余
执行器
虚拟局域网标识
关系
深度强化学习方法
机器人
深度强化学习模型
训练场景
规划算法
路侧单元部署方法
交通安全风险
路段
背包算法
轨迹点数据