摘要
本发明涉及一种基于深度逆强化学习的汇入区域主路车驾驶行为建模方法,该方法构建主路车专家轨迹集;构建仿真环境模型,环境模型的输入包括由主路车专家轨迹集D提供的当前状态特征和由PPO算法中主路车策略网络控制主路车提供的动作特征;状态转移函数用于根据当前状态特征和动作特征,返回下一时间步的状态特征;奖励网络用于根据主路车的状态特征给出每一时间步的瞬时奖励;构建由最大熵深度逆强化学习算法和PPO算法构成的框架;之后进行训练,使用PPO算法训练以生成主路车在仿真环境下的预测轨迹;将预测轨迹与主路车专家轨迹输入最大熵深度逆强化学习算法,计算损失函数,更新奖励网络参数,直到收敛,解决传统单一方法存在的策略失准问题。
技术关键词
深度逆强化学习
建模方法
仿真环境
车辆轨迹数据
动作特征
强化学习算法
策略
网络控制
表达式
正则化参数
加速度
指标
地图
误差
代表