摘要
本发明公开了面向复杂道路场景的自适应自动驾驶模型的训练方法及系统,其中方法包括:对多个一级自动驾驶模型进行训练,不同模型的奖励函数对应不同的训练策略倾向;对训练好的多个一级自动驾驶模型进行综合评分,筛选出综合评分最高的三个模型作为专家模型;对二级自动驾驶模型进行训练,将训练集中的数据输入三个专家模型,再将三个专家模型的输出带入二级自动驾驶模型的奖励函数进行计算,在与专家示范动作保持相对一致的情形下受到更少惩罚,若偏离示范动作则会在奖励层面受到更大扣减,经过训练后的二级自动驾驶模型的策略向专家模型的示范动作靠拢。本发明可提高自动驾驶的多场景适应性,丰富决策候选空间,同时缩短训练周期并降低难度。
技术关键词
车辆方向盘转角
道路环境信息
车辆状态信息
场景
模型训练模块
训练系统
刹车踏板
自动驾驶方法
策略
社交
计算机存储介质
加速度
车道
指标
时间差
数据
基础
决策
系统为您推荐了相关专利信息
图像修复模型
图像修复方法
模型训练方法
策略
特征提取模块
数字孪生建模方法
三角网模型
二维激光雷达
动态场景
表面三维数据
控制点
选点方法
抽水蓄能电站
三维实景模型
可靠性准则