摘要
本发明公开了基于李雅普诺夫函数的强化学习自动驾驶决策控制方法,涉及自动驾驶汽车安全控制技术领域。本发明包括:接收自车以及周围环境车辆的行驶状态信息,其中自车行驶状态信息包括位置、速度、加速度、航向角,周围环境车辆的行驶状态信息包括环境车辆相对于自车的位置、速度、航向角以及车道线信息;构建基于强化学习的自动驾驶任务的决策控制模型,决策控制模型以自车以及周围环境车辆的行驶状态信息,以最优自动驾驶策略为输出。本发明通过理论证明的稳定性条件约束强化学习策略更新过程,在高速公路换道、紧急避障等动态场景中实现了安全性与决策效能的统一,针对采用强化学习训练自动驾驶的安全性和策略稳定性具有良好的应用前景。
技术关键词
李雅普诺夫函数
行驶状态信息
SAC算法
马尔可夫模型
车道线信息
车辆
增广拉格朗日
计算机可执行指令
预定义阈值
多层前馈神经网络
策略更新方法
差分算法
决策控制系统
策略优化方法
强化学习框架
强化学习策略
系统为您推荐了相关专利信息
垂直起降无人机
数据驱动模型
姿态控制系统
矩阵
滚动时域优化
协同优化控制方法
功率转换装置
孤岛运行模式
脉宽调制驱动
多模态