摘要
本发明公开了一种用于优化无人驾驶车辆行为决策模型的方法,属于无人驾驶车辆的智能决策技术领域。包括:获取交通参与者的历史数据;建立交通场景交互关系图,包括节点特征矩阵和邻接矩阵;将所述节点特征矩阵和邻接矩阵输入图注意力神经网络得到图的拓扑特征;建立轨迹模型,选择决策特征生成奖励函数,并采用最大熵逆强化进行学习;将学习到的所述奖励函数与DQN相结合,根据所述图的拓扑特征进行车辆行为决策。本发明设计的多维度奖励函数综合考虑了行驶效率、舒适性、风险规避和交互作用,使得无人驾驶车辆的决策更为全面和细致。并采用最大熵逆强化学习技术,直接从人类驾驶数据中学习奖励函数,有效提升了无人驾驶车辆的决策拟人化程度。
技术关键词
无人驾驶车辆
交通
轨迹模型
节点特征
拓扑特征
注意力神经网络
多项式
加速度
门控循环单元
玻尔兹曼模型
生成轨迹
决策算法
智能决策技术
强化学习技术
矩阵
人类驾驶员
偏转角