摘要
本发明公开了考虑交互的自动驾驶决策规划方法、系统及终端设备,涉及自动驾驶技术领域。本发明包括:基于安全代价、通行代价和舒适代价设计得到联合代价函数,对联合代价函数进行相反数处理得到联合奖励函数;采用最大熵逆强化学习算法对联合奖励函数进行训练,直至联合奖励函数收敛;根据自车和交互车的状态采样候选联合轨迹,利用收敛后的联合奖励函数对自车和交互车的候选联合轨迹的奖励进行计算;选择奖励最大的候选联合轨迹作为规划结果输出。本发明通过构建集成预测框架,充分考虑了自动驾驶车辆与其他交通车的交互博弈关系,并通过最大熵逆强化学习算法,根据人类驾驶员的专家演示数据,自动地标定集成预测框架的联合奖励函数。
技术关键词
决策规划方法
轨迹
强化学习算法
人类驾驶员
深度逆强化学习
计算机可执行指令
加速度
参数
终端设备
车辆
强化学习方法
纵向动力学
自动驾驶技术
处理器
规划系统
交通车
存储器
输出模块
系统为您推荐了相关专利信息
可再生能源
混合预测模型
Wasserstein距离度量
系统运行状态
混合整数线性规划
智能体模型
等级评估方法
基准
多轮对话
模型训练模块
输入整形器
笛卡尔空间轨迹
机器人连杆
机器人电机
工业机器人轨迹
机箱散热口
图像数据采集模块
图像数据处理模块
服务器机箱
服务器系统